WildClawBench:用于评估真实世界长周期智能体的基准测试
原帖
**WildClawBench:一个用于真实世界、长周期智能体评估的基准测试**
_WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation_
> 本文介绍了WildClawBench,一个针对基于大型语言模型和视觉语言模型的智能体(Agent)的新基准测试。该基准测试包含60个双语、多模态任务,旨在评估智能体在真实运行环境(如Docker容器)中完成复杂长周期工作的能力,而非依赖合成沙盒或模拟服务。评估混合使用规则检查、环境状态审计和大语言/视觉模型裁判。在测试的19个前沿模型中,表现最好的Claude Opus 4.7在OpenClaw下也仅达到62.2%的总分,表明当前前沿模型在长周期、原生运行时智能体评估方面仍有巨大挑战。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.10912)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍了WildClawBench基准测试,它包含60个双语多模态任务,用于评估基于大型语言模型和视觉语言模型的智能体在Docker容器等真实环境中完成长周期工作的能力。该评估采用混合方法,测试了19个前沿模型。
答案说明
WildClawBench是一个针对基于LLM/VLM的智能体的新基准测试,旨在评估其在真实运行环境中完成复杂长周期任务的能力,测试结果显示当前最优模型仍面临巨大挑战。
这篇帖子回答的问题
- WildClawBench是什么?
- WildClawBench的测试结果表明当前模型表现如何?
核心观点
- WildClawBench是一个用于评估智能体在真实世界环境中长期任务表现的新基准,包含60个多模态任务。
- 根据该基准测试的结果,当前表现最好的模型Claude Opus 4.7总分仅为62.2%,表明在长周期智能体任务上仍存在巨大挑战。
FAQ
- Q: WildClawBench的评估方法是什么?
- A: 该基准测试的评估方法混合使用了规则检查、环境状态审计和大语言/视觉模型裁判。
- Q: WildClawBench测试了多少个模型?
- A: 根据该文,共测试了19个前沿模型。
关键实体
- WildClawBench
- Claude Opus 4.7