**通过变分策略蒸馏学习语言反馈**

_Learning from Language Feedback via Variational Policy Distillation_

> 本文提出变分策略蒸馏(VPD)框架,用于解决强化学习从可验证奖励(RLVR)中因稀疏结果信号导致的探索瓶颈。VPD将语言反馈学习形式化为变分期望最大化(EM)问题,使教师和学生策略共同进化:在E步中,教师通过自适应信任区域更新主动优化,将文本反馈转化为动态改进的目标令牌分布;在M步中,学生在自己的在线策略上内化这种密集分布引导。该方法在科学推理和代码生成任务中,持续优于标准RLVR和现有自蒸馏基线,并通过数学推理和冷启动场景测试,揭示了反馈驱动自蒸馏的基本限制。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15113)