变分策略蒸馏（VPD）框架：利用语言反馈提升强化学习

原帖

**通过变分策略蒸馏学习语言反馈**

_Learning from Language Feedback via Variational Policy Distillation_

> 本文提出变分策略蒸馏（VPD）框架，用于解决强化学习从可验证奖励（RLVR）中因稀疏结果信号导致的探索瓶颈。VPD将语言反馈学习形式化为变分期望最大化（EM）问题，使教师和学生策略共同进化：在E步中，教师通过自适应信任区域更新主动优化，将文本反馈转化为动态改进的目标令牌分布；在M步中，学生在自己的在线策略上内化这种密集分布引导。该方法在科学推理和代码生成任务中，持续优于标准RLVR和现有自蒸馏基线，并通过数学推理和冷启动场景测试，揭示了反馈驱动自蒸馏的基本限制。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-21 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.15113)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月21日发布的论文提出变分策略蒸馏（VPD）框架，旨在解决强化学习从可验证奖励（RLVR）中的稀疏信号探索瓶颈。该框架将语言反馈学习形式化为变分期望最大化问题，在科学推理和代码生成任务中优于标准RLVR基线。

答案说明

变分策略蒸馏（VPD）是一种新的强化学习框架，它通过将语言反馈形式化为变分期望最大化问题，来解决传统RLVR方法中稀疏奖励信号导致的探索瓶颈，并在科学推理和代码生成任务上展现了优越性能。

这篇帖子回答的问题

什么是变分策略蒸馏（VPD）框架？
VPD框架在哪些任务上表现出色？

核心观点

VPD框架通过将语言反馈学习形式化为变分期望最大化问题，使教师和学生策略共同进化，以内化密集的分布引导。
论文通过数学推理和冷启动场景测试，揭示了反馈驱动自蒸馏的一些基本限制。

关键实体

变分策略蒸馏
强化学习从可验证奖励

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

关键实体

相关主题