π-Bench：评估长期工作流中主动型个人助手智能体

原帖

**π-Bench：评估长期工作流中主动型个人助手智能体**

_π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows_

> 本文介绍了π-Bench，这是一个用于评估个人助手智能体主动服务能力的基准。它包含100个多轮对话任务，涵盖5种特定领域的用户角色。该基准通过纳入隐含用户意图、任务间依赖和跨会话连续性，评估智能体在长期交互中预判和满足用户需求的能力。实验表明，主动帮助仍然具有挑战性，任务完成度与主动性之间存在明确区分，且先前的交互经验对后续任务的主动意图识别具有价值。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-22 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.14678)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍π-Bench基准，用于评估个人助手智能体在长期交互中的主动服务能力，包含100个多轮对话任务和5种用户角色。

答案说明

π-Bench是一个评估主动型个人助手智能体的基准，通过包含隐含用户意图、任务间依赖和跨会话连续性的任务，评估智能体预判和满足用户需求的能力。

这篇帖子回答的问题

π-Bench基准如何评估个人助手智能体的主动服务能力？

核心观点

主动帮助对智能体仍然具有挑战性，任务完成度与主动性之间存在明确区分。

关键实体

π-Bench
HuggingFace Daily Papers