FEST算法：用随机小样本引导提升可验证奖励强化学习效率

原帖

**通过随机选择的小样本引导提升可验证奖励强化学习**

_Boosting Reinforcement Learning with Verifiable Rewards via Randomly Selected Few-Shot Guidance_

> 针对可验证奖励强化学习（RLVR）在困难任务上样本效率低的问题，本文提出了FEST算法。该算法仅使用从监督微调（SFT）数据集中随机选取的128个示范样本进行引导，就能取得优异性能。研究发现，其成功关键在于结合监督信号、在策略信号以及对少数样本SFT数据集的权重衰减，以防止过拟合。在多个基准测试中，FEST以远少于基线方法的数据量实现了性能超越，甚至能匹配使用完整数据集的效果。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-15 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.15012)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

针对可验证奖励强化学习（RLVR）在困难任务上样本效率低的问题，FEST算法提出仅使用从监督微调数据集中随机选取的128个示范样本进行引导。研究发现其成功关键在于结合监督信号、在策略信号以及对少数样本SFT数据集的权重衰减。在多个基准测试中，该算法以远少于基线方法的数据量实现了性能超越，甚至能匹配使用完整数据集的效果。

答案说明

FEST算法是一种针对可验证奖励强化学习（RLVR）的改进方法，它通过仅使用随机选择的128个示范样本进行引导来提升样本效率。该算法结合了监督信号、在策略信号和权重衰减机制，以防止过拟合，并在多个基准测试中展现了优异的性能。

这篇帖子回答的问题

什么是FEST算法？
FEST算法如何提升RLVR的样本效率？

核心观点

FEST算法通过使用少量随机选择的示范样本（128个）进行引导，有效提升了可验证奖励强化学习在困难任务上的样本效率。
该算法的成功关键在于结合监督信号、在策略信号以及对少数样本SFT数据集的权重衰减，以防止过拟合。

FAQ

Q: FEST算法使用多少样本？: A: 根据帖子，FEST算法仅使用从监督微调（SFT）数据集中随机选取的128个示范样本进行引导。
Q: FEST算法相比基线方法有何优势？: A: 帖子指出，在多个基准测试中，FEST以远少于基线方法的数据量实现了性能超越，甚至能匹配使用完整数据集的效果。

关键实体

FEST
可验证奖励强化学习（RLVR）
监督微调（SFT）
HuggingFace Daily Papers

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题