GRASP：面向多人非语言交互的大规模社会推理数据集与学习方法

原帖

**GRASP：学习在多人非语言交互中进行社会推理**

_GRASP: Learning to Ground Social Reasoning in Multi-Person Non-Verbal Interactions_

> 本文介绍了GRASP，一个大规模社会推理数据集，旨在解决现有大型多模态语言模型在多人视频中无法准确识别交互参与者的问题。该数据集包含46K个视频（总计749小时）和290K个问答对，围绕16类非语言线索（如视线、指示性手势）构建。作者提出了社会基础奖励（SGR）学习信号，以提升模型在社会事件中的推理能力。实验表明，SGR在GRASP-Bench上提高了性能，同时保持了相关视频问答基准的零样本表现。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-19 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.15764)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月19日，HuggingFace Daily Papers社区热门论文介绍了GRASP数据集，旨在解决现有多模态语言模型在多人视频中无法准确识别交互参与者的问题。该数据集包含46K视频（749小时）和290K问答对，围绕16类非语言线索构建，并提出了社会基础奖励（SGR）学习信号来提升推理能力。

答案说明

根据该论文介绍，GRASP是一个包含46K视频（总计749小时）和290K个问答对的大规模社会推理数据集，围绕16类非语言线索（如视线、指示性手势）构建。作者提出了社会基础奖励（SGR）学习信号，实验表明其在GRASP-Bench上提高了性能。

这篇帖子回答的问题

GRASP数据集包含哪些内容？
什么是社会基础奖励（SGR）学习信号？

核心观点

GRASP是一个大规模社会推理数据集，包含46K视频（总计749小时）和290K个问答对，围绕16类非语言线索构建。
作者提出的社会基础奖励（SGR）学习信号在GRASP-Bench上提高了性能，同时保持了相关视频问答基准的零样本表现。

FAQ

Q: GRASP数据集旨在解决什么问题？: A: 根据论文介绍，GRASP旨在解决现有大型多模态语言模型在多人视频中无法准确识别交互参与者的问题。
Q: GRASP数据集包含多少视频和问答对？: A: 根据论文介绍，GRASP包含46K个视频（总计749小时）和290K个问答对。

关键实体

GRASP
社会基础奖励（SGR）
HuggingFace Daily Papers