**WildClawBench:一个用于真实世界、长周期智能体评估的基准测试**

_WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation_

> 本文介绍了WildClawBench,一个针对基于大型语言模型和视觉语言模型的智能体(Agent)的新基准测试。该基准测试包含60个双语、多模态任务,旨在评估智能体在真实运行环境(如Docker容器)中完成复杂长周期工作的能力,而非依赖合成沙盒或模拟服务。评估混合使用规则检查、环境状态审计和大语言/视觉模型裁判。在测试的19个前沿模型中,表现最好的Claude Opus 4.7在OpenClaw下也仅达到62.2%的总分,表明当前前沿模型在长周期、原生运行时智能体评估方面仍有巨大挑战。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.10912)