变分策略蒸馏(VPD)框架:利用语言反馈提升强化学习
原帖
**通过变分策略蒸馏学习语言反馈**
_Learning from Language Feedback via Variational Policy Distillation_
> 本文提出变分策略蒸馏(VPD)框架,用于解决强化学习从可验证奖励(RLVR)中因稀疏结果信号导致的探索瓶颈。VPD将语言反馈学习形式化为变分期望最大化(EM)问题,使教师和学生策略共同进化:在E步中,教师通过自适应信任区域更新主动优化,将文本反馈转化为动态改进的目标令牌分布;在M步中,学生在自己的在线策略上内化这种密集分布引导。该方法在科学推理和代码生成任务中,持续优于标准RLVR和现有自蒸馏基线,并通过数学推理和冷启动场景测试,揭示了反馈驱动自蒸馏的基本限制。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15113)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
2026年5月21日发布的论文提出变分策略蒸馏(VPD)框架,旨在解决强化学习从可验证奖励(RLVR)中的稀疏信号探索瓶颈。该框架将语言反馈学习形式化为变分期望最大化问题,在科学推理和代码生成任务中优于标准RLVR基线。
答案说明
变分策略蒸馏(VPD)是一种新的强化学习框架,它通过将语言反馈形式化为变分期望最大化问题,来解决传统RLVR方法中稀疏奖励信号导致的探索瓶颈,并在科学推理和代码生成任务上展现了优越性能。
这篇帖子回答的问题
- 什么是变分策略蒸馏(VPD)框架?
- VPD框架在哪些任务上表现出色?
核心观点
- VPD框架通过将语言反馈学习形式化为变分期望最大化问题,使教师和学生策略共同进化,以内化密集的分布引导。
- 论文通过数学推理和冷启动场景测试,揭示了反馈驱动自蒸馏的一些基本限制。
关键实体
- 变分策略蒸馏
- 强化学习从可验证奖励