大型多模态模型创造性物理智能新基准与改进方法

原帖

**大型多模态模型在创造性物理智能领域的进展**

_Advancing Creative Physical Intelligence in Large Multimodal Models_

> 本研究探讨了大型多模态模型（LMMs）在开放式环境中进行创造性问题解决的能力，特别是利用视觉线索进行物理可行工具使用的能力。研究者引入了一个新的基准MM-CreativityBench，用于评估模型在复杂场景中识别物体功能属性并组合解决方案的能力。实验发现当前模型常因缺乏持续的视觉探索而失败，并提出了一种基于功能属性对齐的方法（使用直接偏好优化）来改进模型性能，减少了幻觉错误并提高了实体选择准确性。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-28 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.26396)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

该论文探讨了大型多模态模型在开放式环境中进行创造性物理问题解决的能力，并引入了新基准MM-CreativityBench。研究提出了一种基于功能属性对齐的方法（使用直接偏好优化），以减少模型幻觉并提高实体选择准确性。

答案说明

该论文关注大型多模态模型的创造性物理智能，引入了MM-CreativityBench基准来评估模型识别物体功能属性并组合解决方案的能力，并提出了基于功能属性对齐和直接偏好优化的方法来改进模型性能。

这篇帖子回答的问题

大型多模态模型在创造性物理智能方面面临哪些挑战？
如何改进大型多模态模型在创造性物理任务中的表现？

核心观点

当前大型多模态模型在创造性物理问题解决中，常因缺乏持续的视觉探索而失败。
研究提出了一种基于功能属性对齐（使用直接偏好优化）的方法，可减少幻觉错误并提高实体选择准确性。

FAQ

Q: MM-CreativityBench基准是用来评估什么的？: A: 根据论文，MM-CreativityBench基准用于评估大型多模态模型在复杂场景中识别物体功能属性并组合解决方案的能力。
Q: 该研究如何改进大型多模态模型在创造性物理任务中的表现？: A: 该研究提出了一种基于功能属性对齐的方法，使用直接偏好优化来改进模型性能，从而减少幻觉错误并提高实体选择准确性。

关键实体

大型多模态模型
MM-CreativityBench
直接偏好优化
HuggingFace Daily Papers