QUACK:评估多模态社交推理智能体语言真实性的开源框架
本文介绍了QUACK框架,用于从游戏结果、行为轨迹和语句一致性三个层面评估多模态社交推理智能体。该框架通过引擎日志重构智能体真实轨迹,自动标记空间幻觉、无根据指控等问题。研究评估三种前沿视觉语言模型发现,即使最强的智能体也有15.1%的可验证空间声明存在幻觉。
First-Principle 上关于「社会推理」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍了QUACK框架,用于从游戏结果、行为轨迹和语句一致性三个层面评估多模态社交推理智能体。该框架通过引擎日志重构智能体真实轨迹,自动标记空间幻觉、无根据指控等问题。研究评估三种前沿视觉语言模型发现,即使最强的智能体也有15.1%的可验证空间声明存在幻觉。
2026年5月19日,HuggingFace Daily Papers社区热门论文介绍了GRASP数据集,旨在解决现有多模态语言模型在多人视频中无法准确识别交互参与者的问题。该数据集包含46K视频(749小时)和290K问答对,围绕16类非语言线索构建,并提出了社会基础奖励(SGR)学习信号来提升推理能力。