研究发现多模态大语言模型在人格感知任务中存在显著偏见
原帖
**感知还是偏见:多模态大语言模型能否超越对人格的第一印象?**
_Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality?_
> 该研究针对多模态大语言模型(MLLMs)在人格感知任务中可能存在的“偏见”问题,提出了新的评估框架。作者指出,现有基准仅依赖大五人格分数预测,无法判断模型是通过行为理解还是表面模式匹配来做出判断。为此,研究提出了“基于依据的人格推理”(GPR)任务,要求模型将人格评分与可观测证据关联。他们还构建了包含1104个视频和5320道多项选择题的新数据集MM-OCEAN,并设计了三层评估体系和四项失败模式指标。对27个MLLM的测试揭示了一个惊人的“偏见差距”:51%的正确评分并非基于检索到的线索,且“全面依据率”仅为0-33.5%。这表明模型可能“猜对”答案但推理错误,为未来有依据的社交认知能力发展指明了方向。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-22 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.22109)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
2026年5月22日发布的研究指出,多模态大语言模型在人格感知任务中存在‘偏见差距’,51%的正确评分并非基于检索到的线索,全面依据率仅为0-33.5%。
答案说明
研究揭示MLLMs在人格感知中存在偏见,可能通过表面模式匹配而非行为理解做出判断,导致‘猜对’答案但推理错误。
这篇帖子回答的问题
- 研究如何评估多模态大语言模型的人格感知能力?
- 多模态大语言模型在人格感知中表现出什么主要问题?
核心观点
- 研究提出的‘基于依据的人格推理’(GPR)任务和MM-OCEAN数据集,为评估模型是否基于可观测证据进行人格推断提供了新框架。
- 对27个MLLM的测试揭示了显著的‘偏见差距’,表明模型在人格感知中可能依赖表面模式匹配而非深层行为理解。
FAQ
- Q: 什么是‘偏见差距’?
- A: 根据研究,‘偏见差距’指的是多模态大语言模型在人格感知任务中,正确评分并非基于检索到的可观测线索,而是可能通过表面模式匹配得出的现象。
- Q: 研究提出了什么新任务来评估人格感知?
- A: 研究提出了‘基于依据的人格推理’(GPR)任务,要求模型将人格评分与可观测证据关联。
关键实体
- 多模态大语言模型 (MLLMs)
- 基于依据的人格推理 (GPR) 任务
- MM-OCEAN 数据集