VitaBench 2.0：评估长期用户交互中个性化主动型智能体的基准测试

原帖

**VitaBench 2.0：评估长期用户交互中的个性化与主动型智能体**

_VitaBench 2.0: Evaluating Personalized and Proactive Agents in Long-Term User Interactions_

> 这篇论文介绍了VitaBench 2.0基准测试，专门用于评估大型语言模型（LLM）在长期用户交互中作为个性化主动型智能体的表现。研究指出，现有基准多关注推理和工具使用，而忽视了在现实场景中从碎片化交互中推断和利用用户偏好的挑战。VitaBench 2.0通过时间序列任务组织，要求智能体持续提取、利用并更新用户偏好，并通过识别缺失信息来评估其主动性。评估结果显示，即使是前沿模型在现实个性化任务中仍面临重大挑战，揭示了当前能力与实际需求之间的差距，并为未来模型改进提供了见解。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-27 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.27141)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

First-Principle平台分享了HuggingFace Daily Papers推荐的论文VitaBench 2.0。该基准测试专门用于评估大型语言模型在长期用户交互中作为个性化主动型智能体的表现，旨在弥补现有基准忽视从碎片化交互中推断用户偏好的挑战。

答案说明

VitaBench 2.0是一个用于评估LLM智能体在长期交互中个性化与主动性的基准测试。它通过时间序列任务要求智能体持续提取、利用并更新用户偏好，并通过识别缺失信息来评估主动性。研究表明，即使是前沿模型在此类现实任务中仍面临重大挑战。

这篇帖子回答的问题

VitaBench 2.0基准测试的核心评估目标是什么？
现有基准测试的主要不足是什么，VitaBench 2.0如何应对？

核心观点

VitaBench 2.0通过时间序列任务组织，要求智能体持续提取、利用并更新用户偏好，并通过识别缺失信息来评估其主动性。
评估结果显示，即使是前沿模型在现实个性化任务中仍面临重大挑战，揭示了当前能力与实际需求之间的差距。

FAQ

Q: VitaBench 2.0评估智能体的主要方式是什么？: A: 该基准测试通过时间序列任务组织，要求智能体持续提取、利用并更新用户偏好，并通过识别缺失信息来评估其主动性。
Q: 该研究对于当前LLM智能体的能力有何发现？: A: 研究发现，即使是前沿模型在现实个性化任务中仍面临重大挑战，揭示了当前能力与实际需求之间存在差距。

关键实体

VitaBench 2.0
大型语言模型（LLM）
HuggingFace Daily Papers