**学习构建环境:通过可验证环境合成实现自我进化推理强化学习**

_Learning to Build the Environment: Self-Evolving Reasoning RL via Verifiable Environment Synthesis_

> 本文提出了一种让语言模型自我改进的新方法,即让模型不仅生成问题或解题过程来模仿学习,而是构建用于训练它自身的环境。核心思想是将自我改进从一个数据生成循环转变为一个环境构建循环,每个环境产物都是一个可复用的可执行对象,能够采样实例、计算参考答案并对回答进行评分。这种方法依赖于环境必须具备稳定的“求解-验证”不对称性,即模型能够编写一个它自己在自然语言中无法可靠执行的预言机程序。研究团队开发了名为EvoEnv的单一策略生成器-求解器方法,它从10个种子合成Python环境,并通过分阶段验证、语义自审、相对于求解器的难度校准和新颖性检查后才被接受。实验表明,在Qwen3-4B-Thinking模型上,与使用固定公开数据或手工设计环境相比,EvoEnv将平均性能从72.4提升至74.8,相对增益为3.3%,证明了稳定的自我改进不依赖于合成更多数据,而在于模型学习构建其难度在结构上超越自身的“世界”。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.14392)