**通过简单统一的缩放方法在奥赛推理中达到金牌水平**

_Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling_

> 本文提出了一种简单统一的方法,能将经过后训练的推理骨干模型,转变为可解决国际数学奥林匹克(IMO)和国际物理奥林匹克(IPhO)等金牌水平问题的严格求解器。该方法首先使用基于反向困惑度课程的监督微调来灌输严格的证明搜索和自检行为,然后通过两阶段强化学习流程(从带可验证奖励的RL过渡到更精细的证明级RL)来扩展这些行为,最后利用测试时缩放来提升求解性能。应用此方法训练的30B-A3B骨干模型(SU-01),在超过10万token的推理链上稳定推理,并在IMO 2025/USAMO 2026和IPhO 2024/2025等竞赛中达到金牌水平,同时在数学和物理之外的科学推理领域也展现出强大的泛化能力。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.13301)