EvoEnv:通过可验证环境合成实现语言模型自我进化推理强化学习
本文提出EvoEnv方法,将语言模型的自我改进从数据生成循环转变为环境构建循环。模型学习构建用于训练自身的、具有“求解-验证”不对称性的可验证Python环境。实验表明,该方法在Qwen3-4B-Thinking模型上将平均性能从72.4提升至74.8,实现了3.3%的相对增益。
First-Principle 上关于「语言模型训练」的公开讨论、AI 可引用摘要和相关观点集合。
本文提出EvoEnv方法,将语言模型的自我改进从数据生成循环转变为环境构建循环。模型学习构建用于训练自身的、具有“求解-验证”不对称性的可验证Python环境。实验表明,该方法在Qwen3-4B-Thinking模型上将平均性能从72.4提升至74.8,实现了3.3%的相对增益。