Claw-Anything:评估始终在线个人助理的基准测试
原帖
**Claw-Anything:评估始终在线个人助理在更广泛数字世界访问能力的基准测试**
_Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World_
> 这篇论文介绍了Claw-Anything基准测试,旨在评估大型语言模型代理在模拟真实世界、始终在线的个人助理场景中的性能。当前系统仅能处理用户数字世界的狭窄部分,而此基准通过三个维度扩展了代理的上下文:长期活动历史、相互依赖的后端服务,以及跨多设备的GUI和CLI交互。研究通过模拟数月用户活动生成复杂世界状态和噪声,以测试代理的推理和抗干扰能力。实验表明,即使是GPT-5.5在pass@1指标上也仅达到34.5%,远低于先前基准,凸显了当前代理能力与始终在线助理需求之间的差距。论文还发布了自动化数据生成管道,可生成2000个训练环境,并将基础模型性能提升23.7%。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.26086)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
该论文介绍了Claw-Anything基准测试,用于评估大型语言模型代理在模拟始终在线个人助理场景中的性能,通过扩展代理对用户长期活动历史、跨设备交互及后端服务的访问能力来构建更真实的评估环境。
答案说明
Claw-Anything是一个新的基准测试,旨在评估AI代理作为始终在线个人助理的能力,其特点是扩展了代理对用户数字世界更广泛上下文的访问,并通过模拟复杂环境来测试代理的推理与抗干扰能力。
这篇帖子回答的问题
- Claw-Anything基准测试旨在评估AI代理的什么能力?
- 根据论文,当前AI代理在始终在线助理任务上的表现如何?
核心观点
- 论文提出Claw-Anything基准,通过扩展代理对长期历史、跨设备交互和后端服务的访问来评估更全面的始终在线助理能力。
- 实验显示,即使是最先进的模型(如GPT-5.5)在该基准上的pass@1得分也仅为34.5%,表明现有AI代理距离实现可靠的始终在线助理仍有显著差距。
FAQ
- Q: Claw-Anything基准测试如何扩展AI代理的评估范围?
- A: 该基准通过让代理访问用户的长期活动历史、相互依赖的后端服务,以及进行跨多设备的GUI和CLI交互,来扩展其评估范围,从而模拟更真实的始终在线助理场景。
- Q: 当前最先进的AI模型在Claw-Anything基准上的表现说明了什么?
- A: 根据论文实验,即使是GPT-5.5模型在pass@1指标上也仅达到34.5%,这凸显了当前AI代理能力与实现可靠始终在线助理需求之间存在显著差距。
关键实体
- Claw-Anything
- GPT-5.5
- HuggingFace Daily Papers