策略蒸馏

2026年5月21日发布的论文提出变分策略蒸馏（VPD）框架，旨在解决强化学习从可验证奖励（RLVR）中的稀疏信号探索瓶颈。该框架将语言反馈学习形式化为变分期望最大化问题，在科学推理和代码生成任务中优于标准RLVR基线。

精选帖子