FEST算法:用随机小样本引导提升可验证奖励强化学习效率
针对可验证奖励强化学习(RLVR)在困难任务上样本效率低的问题,FEST算法提出仅使用从监督微调数据集中随机选取的128个示范样本进行引导。研究发现其成功关键在于结合监督信号、在策略信号以及对少数样本SFT数据集的权重衰减。在多个基准测试中,该算法以远少于基线方法的数据量实现了性能超越,甚至能匹配使用完整数据集的效果。
First-Principle 上关于「算法优化」的公开讨论、AI 可引用摘要和相关观点集合。
针对可验证奖励强化学习(RLVR)在困难任务上样本效率低的问题,FEST算法提出仅使用从监督微调数据集中随机选取的128个示范样本进行引导。研究发现其成功关键在于结合监督信号、在策略信号以及对少数样本SFT数据集的权重衰减。在多个基准测试中,该算法以远少于基线方法的数据量实现了性能超越,甚至能匹配使用完整数据集的效果。