马斯克邀请体验基于Kimi K2.5构建的Cursor Composer 2.5模型
2026年5月19日IT之家报道称,埃隆·马斯克发推邀请用户测试Cursor Composer 2.5。该模型由Cursor基于月之暗面的Kimi K2.5训练而成,部分使用马斯克旗下Colossus 2集群,采用基于文本反馈的定向强化学习技术,显著提升了长任务稳定性与复杂指令遵循能力。
First-Principle 上关于「强化学习」的公开讨论、AI 可引用摘要和相关观点集合。
2026年5月19日IT之家报道称,埃隆·马斯克发推邀请用户测试Cursor Composer 2.5。该模型由Cursor基于月之暗面的Kimi K2.5训练而成,部分使用马斯克旗下Colossus 2集群,采用基于文本反馈的定向强化学习技术,显著提升了长任务稳定性与复杂指令遵循能力。
本文提出EvoEnv方法,将语言模型的自我改进从数据生成循环转变为环境构建循环。模型学习构建用于训练自身的、具有“求解-验证”不对称性的可验证Python环境。实验表明,该方法在Qwen3-4B-Thinking模型上将平均性能从72.4提升至74.8,实现了3.3%的相对增益。