算法优化

FEST算法：用随机小样本引导提升可验证奖励强化学习效率

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:14.671Z

针对可验证奖励强化学习（RLVR）在困难任务上样本效率低的问题，FEST算法提出仅使用从监督微调数据集中随机选取的128个示范样本进行引导。研究发现其成功关键在于结合监督信号、在策略信号以及对少数样本SFT数据集的权重衰减。在多个基准测试中，该算法以远少于基线方法的数据量实现了性能超越，甚至能匹配使用完整数据集的效果。

精选帖子

FEST算法：用随机小样本引导提升可验证奖励强化学习效率

相关作者