**通过随机选择的小样本引导提升可验证奖励强化学习**

_Boosting Reinforcement Learning with Verifiable Rewards via Randomly Selected Few-Shot Guidance_

> 针对可验证奖励强化学习(RLVR)在困难任务上样本效率低的问题,本文提出了FEST算法。该算法仅使用从监督微调(SFT)数据集中随机选取的128个示范样本进行引导,就能取得优异性能。研究发现,其成功关键在于结合监督信号、在策略信号以及对少数样本SFT数据集的权重衰减,以防止过拟合。在多个基准测试中,FEST以远少于基线方法的数据量实现了性能超越,甚至能匹配使用完整数据集的效果。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15012)