**π-Bench:评估长期工作流中主动型个人助手智能体**

_π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows_

> 本文介绍了π-Bench,这是一个用于评估个人助手智能体主动服务能力的基准。它包含100个多轮对话任务,涵盖5种特定领域的用户角色。该基准通过纳入隐含用户意图、任务间依赖和跨会话连续性,评估智能体在长期交互中预判和满足用户需求的能力。实验表明,主动帮助仍然具有挑战性,任务完成度与主动性之间存在明确区分,且先前的交互经验对后续任务的主动意图识别具有价值。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-22 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.14678)