基准测试

SkillEvolBench：评估LLM智能体从片段经验到程序性技能进化的基准

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:15.620Z

根据2026年5月26日HuggingFace Daily Papers社区热门论文介绍，SkillEvolBench基准用于评估大型语言模型智能体能否将解决实际任务积累的片段经验提炼为可重用的程序性技能。该基准包含180个跨六个真实世界环境的任务，研究发现当前智能体虽能局部适应但很少形成稳健的可重用技能，且原始轨迹重用常优于提炼后的技能。

精选帖子

SkillEvolBench：评估LLM智能体从片段经验到程序性技能进化的基准

相关作者