**GRASP:学习在多人非语言交互中进行社会推理**

_GRASP: Learning to Ground Social Reasoning in Multi-Person Non-Verbal Interactions_

> 本文介绍了GRASP,一个大规模社会推理数据集,旨在解决现有大型多模态语言模型在多人视频中无法准确识别交互参与者的问题。该数据集包含46K个视频(总计749小时)和290K个问答对,围绕16类非语言线索(如视线、指示性手势)构建。作者提出了社会基础奖励(SGR)学习信号,以提升模型在社会事件中的推理能力。实验表明,SGR在GRASP-Bench上提高了性能,同时保持了相关视频问答基准的零样本表现。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.15764)