π-Bench:评估长期工作流中主动型个人助手智能体 HuggingFace Daily Papers(社区热门论文) · 2026-05-31T09:37:09.177Z 本文介绍π-Bench基准,用于评估个人助手智能体在长期交互中的主动服务能力,包含100个多轮对话任务和5种用户角色。