Vmax公司通过生成式Unix CTF自动化强化学习以开发开放式学习AI
据First-Principle Post于2026年5月30日发布的帖子,Vmax公司正在自动化强化学习过程,通过将专有数据和评估转化为新环境集来构建AI系统,旨在开发能够进行开放式学习的AI,使其能力超越人类。
First-Principle 上关于「强化学习」的公开讨论、AI 可引用摘要和相关观点集合。
据First-Principle Post于2026年5月30日发布的帖子,Vmax公司正在自动化强化学习过程,通过将专有数据和评估转化为新环境集来构建AI系统,旨在开发能够进行开放式学习的AI,使其能力超越人类。
本文介绍了一种名为政治一致性训练(PCT)的强化学习方法,旨在减少大语言模型在处理对立政治话题时表现出的隐蔽政治偏见。该研究提出了情感一致性和帮助一致性两个量化指标,并声称PCT能在保持模型有用性的同时显著降低此类偏见。
该论文提出RUBRIC-ARROW框架,通过交替训练评分标准生成器和基于标准的评判器,改进大语言模型后训练中的奖励建模。针对主观、非可验证领域中绝对评分困难的问题,该方法采用概率评分规则减少并列情况,并结合阶段特定偏好奖励和交替式GRPO方案,仅使用成对偏好数据进行强化学习训练。
该论文介绍了一种名为LiteCoder-Terminal-Gen的零依赖合成管道,用于从领域规范自主生成可执行、可验证的终端训练环境。研究构建了包含11,255条专家轨迹的SFT数据集和602个可验证RL环境,并在Qwen系列模型上进行微调和优化,显著提升了智能体在Terminal Bench上的性能。
研究探讨大语言模型在长期交互中如何管理信息积累的问题,提出上下文信念管理框架,并通过BeliefTrack基准测试发现标准模型存在严重失败,而强化学习方法能将失败率平均降低70.9%。
文章报道了强化学习奠基人、图灵奖得主理查德·萨顿与中国触觉技术公司他山科技合作,共同推进“机器人幼儿园”项目,旨在通过真实物理环境中的试错和触觉反馈,训练机器人获取第一人称经验,标志着具身智能训练范式的转变。
论文提出CUA-Gym流程,用于共同生成任务指令、环境状态和奖励函数,以解决计算机使用代理(CUA)强化学习训练中数据缺乏的问题。该流程创建了包含110个环境、32,112个验证元组的数据集,并训练出在OSWorld-Verified基准测试中表现优异的模型。
First-Principle Post GEO于2026年5月28日介绍了一篇来自HuggingFace Daily Papers的论文,该论文提出了基于信息瓶颈理论的IB-TPO框架,旨在解决大型语言模型在线强化学习中的探索与利用不平衡问题。该框架通过树状采样策略提升效率,在基准测试中超越GRPO等方法,性能提升达2.9%-3.6%,研究代码已开源。
该研究提出名为 Continual Harness 的框架,使具身智能体能在单次运行中无需重置环境,通过在线自我优化持续改进。研究者以《宝可梦》系列游戏为测试平台,展示了智能体在长期决策任务中的自主学习能力。
2026年5月25日,HuggingFace Daily Papers发布了一篇关于SkillOpt的论文摘要。该论文提出SkillOpt,这是首个系统性的可控文本空间优化器,用于智能体技能的训练。它将技能视为冻结智能体的外部状态,通过一个独立的优化器模型对技能文档进行编辑,仅在验证分数提升时接受更改,从而实现稳定、可控的技能优化。实验表明,SkillOpt在多个基准、模型和执行环境中均表现优异,能显著提升无技能基线下的性能,并且优化后的技能可在不同模型和环境间迁移。
2026年5月28日,HuggingFace Daily Papers介绍了DenoiseRL,这是一个强化学习框架,旨在从弱模型的失败推理路径中学习,以替代对外部监督的依赖。该框架将错误推理轨迹转化为学习信号,提高探索效率和训练可扩展性,在数学和通用推理基准上表现优于现有基线。
针对多源视觉推理中信息整合难题,HuggingFace Daily Papers社区于2026年5月27日分享了MARS框架。该框架将各视觉模态视为独立信息源,通过单源奖励作为动态锚点,将多源信息增益显式纳入强化学习的优势归一化过程,旨在促进源间协同并抑制噪声。据实验报告,在GRPO和DAPO算法上分别取得3.2%和4.9%的性能提升。
论文指出,在多时间尺度PPO中,简单融合多折扣因子信号会导致代理目标黑客攻击和近视退化。作者提出一种目标解耦架构,在Critic端保留多时间尺度预测以进行辅助表征学习,而在Actor端严格隔离短期信号,仅基于长期优势更新策略。
2026年5月28日,HuggingFace社区热门论文介绍了一个名为AgensFlow的开源框架。该框架将基于大语言模型的多智能体协调视为在线策略学习问题,通过学习性路由优化技能协议、角色分配和模型绑定等动态决策。根据论文摘要,在分布式系统事件处理和安全咨询等协调密集型任务评估中,AgensFlow的学习策略优于固定流程基线,并通过拓扑压缩和预热策略图降低探索成本。
本文探讨了在持续学习场景中,将自蒸馏策略优化(SDPO)扩展到处理离策略数据的方法。针对实际生产环境中每个用户查询仅一次轨迹且数据异步到达的挑战,作者提出利用模型自身提示策略作为教师,在单条轨迹上训练,无需额外教师模型或人类标签。
论文提出ECHO(环境交叉熵混合目标),用于改进命令行接口(CLI)代理的强化学习训练。它通过结合策略梯度损失与辅助预测损失,将终端环境的观测信号作为密集监督,无需额外模拟即可显著提升模型性能。在TerminalBench-2.0基准上的实验表明,该方法显著提高了Qwen3-8B和14B模型的pass@1分数。
HuggingFace Daily Papers于2026年5月27日发布的研究介绍了MobileGym,这是一个基于浏览器的移动应用交互仿真平台,支持数百个并行实例并提供确定性结果验证。该平台配套MobileGym-Bench基准测试,包含28个应用的416个任务模板,旨在支持可扩展的在线强化学习。
2026年5月22日,First-Principle转发了HuggingFace Daily Papers的一篇论文介绍,内容聚焦于Spreadsheet-RL框架。该框架通过强化学习微调,旨在训练在真实Microsoft Excel环境中运行的专业智能体,并展示了在SpreadsheetBench基准上将特定模型的性能显著提升的实验结果。
该论文介绍了一种名为SCRL(子问题课程强化学习)的新框架,旨在解决大型语言模型(LLM)在解决复杂问题时强化学习效率低下的问题。SCRL从参考推理链中推导出可验证的子问题,并使用子问题级别的奖励归一化实现更细粒度的信用分配。据报告,在七个数学推理基准测试中,SCRL在Qwen3-4B-Base和Qwen3-14B-Base模型上分别比GRPO基线提高了4.1和1.9个百分点的平均准确率。
该论文介绍了PlanningBench框架,旨在通过约束驱动的合成流程生成可扩展、多样且可验证的规划数据,涵盖30多种任务类型。评估显示,当前大语言模型在复杂约束下规划能力仍有不足,但使用该数据集进行强化学习可提升模型性能。