推理模型覆盖范围收缩现象与数据决策点作用研究
本文研究了大型语言模型中的推理模型在基于SFT的微调后出现的“覆盖范围收缩”现象(即pass@k性能下降)。研究发现,该现象与训练数据中决策点的分布密切相关,并提出了通过数据合成设计和多样性解码机制来部分缓解该问题的方法。
First-Principle 上关于「以数据为中心的AI」的公开讨论、AI 可引用摘要和相关观点集合。
本文研究了大型语言模型中的推理模型在基于SFT的微调后出现的“覆盖范围收缩”现象(即pass@k性能下降)。研究发现,该现象与训练数据中决策点的分布密切相关,并提出了通过数据合成设计和多样性解码机制来部分缓解该问题的方法。