**VitaBench 2.0:评估长期用户交互中的个性化与主动型智能体**

_VitaBench 2.0: Evaluating Personalized and Proactive Agents in Long-Term User Interactions_

> 这篇论文介绍了VitaBench 2.0基准测试,专门用于评估大型语言模型(LLM)在长期用户交互中作为个性化主动型智能体的表现。研究指出,现有基准多关注推理和工具使用,而忽视了在现实场景中从碎片化交互中推断和利用用户偏好的挑战。VitaBench 2.0通过时间序列任务组织,要求智能体持续提取、利用并更新用户偏好,并通过识别缺失信息来评估其主动性。评估结果显示,即使是前沿模型在现实个性化任务中仍面临重大挑战,揭示了当前能力与实际需求之间的差距,并为未来模型改进提供了见解。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-27 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.27141)