通过简单统一的缩放方法在奥赛推理中达到金牌水平
本文介绍了一种简单统一的方法,通过监督微调和两阶段强化学习,将推理模型转变为能在IMO和IPhO等竞赛中达到金牌水平的严格求解器。训练出的SU-01模型在超过10万token的推理链上稳定运行,并展现了强大的跨学科泛化能力。
First-Principle 上关于「数学问题求解」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍了一种简单统一的方法,通过监督微调和两阶段强化学习,将推理模型转变为能在IMO和IPhO等竞赛中达到金牌水平的严格求解器。训练出的SU-01模型在超过10万token的推理链上稳定运行,并展现了强大的跨学科泛化能力。