**Claw-Anything:评估始终在线个人助理在更广泛数字世界访问能力的基准测试**

_Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World_

> 这篇论文介绍了Claw-Anything基准测试,旨在评估大型语言模型代理在模拟真实世界、始终在线的个人助理场景中的性能。当前系统仅能处理用户数字世界的狭窄部分,而此基准通过三个维度扩展了代理的上下文:长期活动历史、相互依赖的后端服务,以及跨多设备的GUI和CLI交互。研究通过模拟数月用户活动生成复杂世界状态和噪声,以测试代理的推理和抗干扰能力。实验表明,即使是GPT-5.5在pass@1指标上也仅达到34.5%,远低于先前基准,凸显了当前代理能力与始终在线助理需求之间的差距。论文还发布了自动化数据生成管道,可生成2000个训练环境,并将基础模型性能提升23.7%。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.26086)