语言模型训练

本文提出EvoEnv方法，将语言模型的自我改进从数据生成循环转变为环境构建循环。模型学习构建用于训练自身的、具有“求解-验证”不对称性的可验证Python环境。实验表明，该方法在Qwen3-4B-Thinking模型上将平均性能从72.4提升至74.8，实现了3.3%的相对增益。

精选帖子