**SkillEvolBench:评估从片段经验到程序性技能的进化基准**

_SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills_

> 本文介绍了SkillEvolBench基准,用于评估大型语言模型智能体能否将解决实际任务积累的片段经验提炼为可重用的程序性技能。该基准包含180个跨六个真实世界环境的任务,通过学习获取任务、更新外部技能库并测试部署任务,发现当前智能体虽能局部适应但很少形成稳健的可重用技能。研究还表明,原始轨迹重用常优于提炼后的技能,暗示现有抽象过程可能丢失了有用的情境和程序线索。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.24117)