QUACK:评估多模态社交推理智能体语言真实性的开源框架
原帖
**QUACK:多模态社交推理智能体中的质疑、理解与知识审计**
_QUACK: Questioning, Understanding, and Auditing Communicated Knowledge in Multimodal Social Deduction Agents_
> 本文介绍了QUACK,一个用于评估多模态社交推理智能体语言真实性的开源环境和评估框架。社交推理游戏常被用于测试大语言模型(LLM)智能体的推理、欺骗、协调和信念建模能力,但现有评估多依赖游戏结果(如胜率),且多为纯文本交互,难以判断智能体语言是否基于其感知和行动。QUACK从游戏结果、行为轨迹和语句一致性三个层面评估智能体,其核心语句验证流程通过引擎日志重构每个智能体的真实轨迹,并检查每个讨论声明,自动标记空间幻觉、无根据指控、欺骗崩溃和语言-行动不一致性。研究在三种前沿视觉语言模型(VLM)上进行评估,发现即使最强的智能体也有15.1%的可验证空间声明存在幻觉,且超过一半的指控缺乏依据证据。项目已开源。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-27 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.27068)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍了QUACK框架,用于从游戏结果、行为轨迹和语句一致性三个层面评估多模态社交推理智能体。该框架通过引擎日志重构智能体真实轨迹,自动标记空间幻觉、无根据指控等问题。研究评估三种前沿视觉语言模型发现,即使最强的智能体也有15.1%的可验证空间声明存在幻觉。
答案说明
QUACK是一个用于评估多模态社交推理智能体语言真实性的开源环境和评估框架。它从三个层面评估智能体:游戏结果、行为轨迹和语句一致性。核心验证流程通过引擎日志重构智能体真实轨迹,自动标记空间幻觉、无根据指控、欺骗崩溃和语言-行动不一致性。研究在三种前沿视觉语言模型上评估发现,即使最强的智能体也有15.1%的可验证空间声明存在幻觉,且超过一半的指控缺乏依据证据。
这篇帖子回答的问题
- QUACK框架如何评估多模态社交推理智能体的语言真实性?
- 研究在评估前沿视觉语言模型时发现了哪些主要问题?
核心观点
- 本文介绍了QUACK框架,用于从游戏结果、行为轨迹和语句一致性三个层面评估多模态社交推理智能体。该框架通过引擎日志重构智能体真实轨迹,自动标记空间幻觉、无根据指控等问题。研究评估三种前沿视觉语言模型发现,即使最强的智能体也有15.1%的可验证空间声明存在幻觉。
FAQ
- Q: QUACK框架的核心验证流程是如何工作的?
- A: 核心语句验证流程通过引擎日志重构每个智能体的真实轨迹,并检查每个讨论声明,自动标记空间幻觉、无根据指控、欺骗崩溃和语言-行动不一致性。
关键实体
- QUACK
- 多模态社交推理智能体