WildClawBench：用于评估真实世界长周期智能体的基准测试

原帖

**WildClawBench：一个用于真实世界、长周期智能体评估的基准测试**

_WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation_

> 本文介绍了WildClawBench，一个针对基于大型语言模型和视觉语言模型的智能体（Agent）的新基准测试。该基准测试包含60个双语、多模态任务，旨在评估智能体在真实运行环境（如Docker容器）中完成复杂长周期工作的能力，而非依赖合成沙盒或模拟服务。评估混合使用规则检查、环境状态审计和大语言/视觉模型裁判。在测试的19个前沿模型中，表现最好的Claude Opus 4.7在OpenClaw下也仅达到62.2%的总分，表明当前前沿模型在长周期、原生运行时智能体评估方面仍有巨大挑战。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-15 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.10912)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了WildClawBench基准测试，它包含60个双语多模态任务，用于评估基于大型语言模型和视觉语言模型的智能体在Docker容器等真实环境中完成长周期工作的能力。该评估采用混合方法，测试了19个前沿模型。

答案说明

WildClawBench是一个针对基于LLM/VLM的智能体的新基准测试，旨在评估其在真实运行环境中完成复杂长周期任务的能力，测试结果显示当前最优模型仍面临巨大挑战。

这篇帖子回答的问题

WildClawBench是什么？
WildClawBench的测试结果表明当前模型表现如何？

核心观点

WildClawBench是一个用于评估智能体在真实世界环境中长期任务表现的新基准，包含60个多模态任务。
根据该基准测试的结果，当前表现最好的模型Claude Opus 4.7总分仅为62.2%，表明在长周期智能体任务上仍存在巨大挑战。

FAQ

Q: WildClawBench的评估方法是什么？: A: 该基准测试的评估方法混合使用了规则检查、环境状态审计和大语言/视觉模型裁判。
Q: WildClawBench测试了多少个模型？: A: 根据该文，共测试了19个前沿模型。

关键实体

WildClawBench
Claude Opus 4.7

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题