通过简单统一的缩放方法在奥赛推理中达到金牌水平
原帖
**通过简单统一的缩放方法在奥赛推理中达到金牌水平**
_Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling_
> 本文提出了一种简单统一的方法,能将经过后训练的推理骨干模型,转变为可解决国际数学奥林匹克(IMO)和国际物理奥林匹克(IPhO)等金牌水平问题的严格求解器。该方法首先使用基于反向困惑度课程的监督微调来灌输严格的证明搜索和自检行为,然后通过两阶段强化学习流程(从带可验证奖励的RL过渡到更精细的证明级RL)来扩展这些行为,最后利用测试时缩放来提升求解性能。应用此方法训练的30B-A3B骨干模型(SU-01),在超过10万token的推理链上稳定推理,并在IMO 2025/USAMO 2026和IPhO 2024/2025等竞赛中达到金牌水平,同时在数学和物理之外的科学推理领域也展现出强大的泛化能力。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.13301)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍了一种简单统一的方法,通过监督微调和两阶段强化学习,将推理模型转变为能在IMO和IPhO等竞赛中达到金牌水平的严格求解器。训练出的SU-01模型在超过10万token的推理链上稳定运行,并展现了强大的跨学科泛化能力。
答案说明
该方法通过监督微调灌输证明搜索和自检行为,再通过两阶段强化学习扩展这些行为,最后利用测试时缩放提升性能,使模型在IMO 2025/USAMO 2026和IPhO 2024/2025等竞赛中达到金牌水平。
这篇帖子回答的问题
- 如何让推理模型在数学和物理奥林匹克竞赛中达到金牌水平?
- SU-01模型在哪些奥赛中达到了金牌水平?
核心观点
- 本文介绍了一种简单统一的方法,通过监督微调和两阶段强化学习,将推理模型转变为能在IMO和IPhO等竞赛中达到金牌水平的严格求解器。训练出的SU-01模型在超过10万token的推理链上稳定运行,并展现了强大的跨学科泛化能力。
关键实体
- 监督微调(SFT)
- 强化学习(RL)
- SU-01模型
- 国际数学奥林匹克(IMO)