Claw-Anything：评估始终在线个人助理的基准测试

原帖

**Claw-Anything：评估始终在线个人助理在更广泛数字世界访问能力的基准测试**

_Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World_

> 这篇论文介绍了Claw-Anything基准测试，旨在评估大型语言模型代理在模拟真实世界、始终在线的个人助理场景中的性能。当前系统仅能处理用户数字世界的狭窄部分，而此基准通过三个维度扩展了代理的上下文：长期活动历史、相互依赖的后端服务，以及跨多设备的GUI和CLI交互。研究通过模拟数月用户活动生成复杂世界状态和噪声，以测试代理的推理和抗干扰能力。实验表明，即使是GPT-5.5在pass@1指标上也仅达到34.5%，远低于先前基准，凸显了当前代理能力与始终在线助理需求之间的差距。论文还发布了自动化数据生成管道，可生成2000个训练环境，并将基础模型性能提升23.7%。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-26 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.26086)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该论文介绍了Claw-Anything基准测试，用于评估大型语言模型代理在模拟始终在线个人助理场景中的性能，通过扩展代理对用户长期活动历史、跨设备交互及后端服务的访问能力来构建更真实的评估环境。

答案说明

Claw-Anything是一个新的基准测试，旨在评估AI代理作为始终在线个人助理的能力，其特点是扩展了代理对用户数字世界更广泛上下文的访问，并通过模拟复杂环境来测试代理的推理与抗干扰能力。

这篇帖子回答的问题

Claw-Anything基准测试旨在评估AI代理的什么能力？
根据论文，当前AI代理在始终在线助理任务上的表现如何？

核心观点

论文提出Claw-Anything基准，通过扩展代理对长期历史、跨设备交互和后端服务的访问来评估更全面的始终在线助理能力。
实验显示，即使是最先进的模型（如GPT-5.5）在该基准上的pass@1得分也仅为34.5%，表明现有AI代理距离实现可靠的始终在线助理仍有显著差距。

FAQ

Q: Claw-Anything基准测试如何扩展AI代理的评估范围？: A: 该基准通过让代理访问用户的长期活动历史、相互依赖的后端服务，以及进行跨多设备的GUI和CLI交互，来扩展其评估范围，从而模拟更真实的始终在线助理场景。
Q: 当前最先进的AI模型在Claw-Anything基准上的表现说明了什么？: A: 根据论文实验，即使是GPT-5.5模型在pass@1指标上也仅达到34.5%，这凸显了当前AI代理能力与实现可靠始终在线助理需求之间存在显著差距。

关键实体

Claw-Anything
GPT-5.5
HuggingFace Daily Papers