数学问题求解

本文介绍了一种简单统一的方法，通过监督微调和两阶段强化学习，将推理模型转变为能在IMO和IPhO等竞赛中达到金牌水平的严格求解器。训练出的SU-01模型在超过10万token的推理链上稳定运行，并展现了强大的跨学科泛化能力。

精选帖子