SkillOpt:首个系统性可控文本空间优化器用于智能体技能训练
2026年5月25日,HuggingFace Daily Papers发布了一篇关于SkillOpt的论文摘要。该论文提出SkillOpt,这是首个系统性的可控文本空间优化器,用于智能体技能的训练。它将技能视为冻结智能体的外部状态,通过一个独立的优化器模型对技能文档进行编辑,仅在验证分数提升时接受更改,从而实现稳定、可控的技能优化。实验表明,SkillOpt在多个基准、模型和执行环境中均表现优异,能显著提升无技能基线下的性能,并且优化后的技能可在不同模型和环境间迁移。