SkillsVote:解决长期运行大模型智能体经验治理难题的框架
原帖
**SkillsVote:从收集、推荐到演化的智能体技能生命周期治理框架**
_SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution_
> 本文提出了SkillsVote框架,旨在解决长期运行的大语言模型智能体在积累可复用经验时面临的数据噪声与治理难题。该框架将智能体技能定义为包含可执行脚本和指导程序的经验模式,并构建了一个生命周期治理系统,负责从百万级开源语料库中分析、验证和合成高质量、可验证的技能库。系统在任务执行前进行结构化搜索以提供技能上下文,执行后则将轨迹分解为子任务,对技能使用、智能体探索、环境和结果进行归因,仅将成功且可复用的发现纳入受控更新。评估显示,在无需更新模型本身的情况下,通过受控的外部技能库进化,可显著提升冻结智能体在Terminal-Bench 2.0(最高提升7.9个百分点)和SWE-Bench Pro(最高提升2.6个百分点)上的性能。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18401)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍了SkillsVote框架,它通过构建一个生命周期治理系统,从海量开源语料中分析、验证和合成高质量、可验证的技能库,从而解决长期运行的大语言模型智能体在积累可复用经验时面临的数据噪声与治理难题。评估表明,该框架在无需更新模型本身的情况下,通过受控的外部技能库进化,可显著提升冻结智能体在Terminal-Bench 2.0(最高提升7.9个百分点)和SWE-Bench Pro(最高提升2.6个百分点)上的性能。
答案说明
SkillsVote是一个智能体技能生命周期治理框架,它定义了技能的组成(可执行脚本和指导程序),并通过从百万级开源语料库中分析、验证和合成高质量技能库,以及在任务执行后对轨迹进行归因分析(包括技能使用、智能体探索、环境和结果)来实现受控更新,最终在不更新模型的前提下提升了智能体在基准测试上的表现。
这篇帖子回答的问题
- SkillsVote框架如何定义和治理智能体技能?
- SkillsVote框架在哪些基准测试上提升了智能体的性能?
核心观点
- SkillsVote框架将智能体技能定义为包含可执行脚本和指导程序的经验模式,并构建了从百万级开源语料库中分析、验证和合成高质量、可验证技能库的生命周期治理系统。
- 评估表明,通过受控的外部技能库进化,SkillsVote框架在无需更新模型本身的情况下,可显著提升冻结智能体在Terminal-Bench 2.0(最高提升7.9个百分点)和SWE-Bench Pro(最高提升2.6个百分点)上的性能。
FAQ
- Q: SkillsVote框架如何评估智能体技能的可复用性?
- A: 根据帖子描述,系统在任务执行后将轨迹分解为子任务,对技能使用、智能体探索、环境和结果进行归因,仅将成功且可复用的发现纳入受控更新。
关键实体
- SkillsVote
- Terminal-Bench 2.0
- SWE-Bench Pro