视觉语言模型

First-Principle 上关于「视觉语言模型」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

论文提出VisAnomBench基准与VisAnomReasoner模型用于时间序列异常检测

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:10.604Z

根据2026年5月29日发布于HuggingFace Daily Papers的论文摘要，该研究针对视觉语言模型在时间序列异常检测中性能不佳的问题，提出了VisAnomBench基准和VisAnomReasoner模型。论文声称该方法通过构建带自然语言解释的基准并微调参数高效模型，实现了更精准的异常定位，并在多个指标上显著优于基线方法，展现了跨基准泛化能力。

LoMo：局部模态替换方法提升视觉语言模型融合深度

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:10.243Z

2026年5月29日，HuggingFace Daily Papers收录的论文提出LoMo（局部模态替换）方法，旨在解决视觉语言模型（VLMs）的“载体敏感性”问题。该轻量级、架构无关的数据范式通过将文本片段动态转换为图像，创建多模态序列以增强跨模态表示不变性。在13个多模态基准测试中，该方法在特定基础模型上相比标准SFT取得了显著提升。

GASP框架：注入3D空间先验以增强视觉语言模型的几何推理能力

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:10.604Z

本文介绍GASP框架，该框架通过注入基础几何先验而非仅依赖高级VQA监督，在不使用3D VQA数据训练的情况下，显著提升了视觉语言模型在3D空间推理任务上的性能。

InstructSAM：基于指令的多实例分割统一框架

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:16.750Z

2026年5月26日，HuggingFace社区热门论文介绍了InstructSAM框架，该框架将指令驱动的实例分割形式化为集合结构化查询预测问题，通过显式接口连接视觉语言模型与SAM3，实现了在单次前向传递中进行准确的多实例分割。

AutoRubric-T2I：用于文本-图像对齐的鲁棒基于规则的奖励模型

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:15.953Z

本文介绍了AutoRubric-T2I，这是一个用于文本到图像生成的评分标准学习框架。该框架旨在解决传统奖励模型训练成本高、评估标准不透明的问题，并能自动生成并选择评分标准，以指导视觉语言模型进行评估。

DepthVLM：统一视觉语言模型与密集度量深度估计

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:20.216Z

2026年5月18日，HuggingFace Daily Papers社区热门论文介绍了DepthVLM框架。该框架旨在将单个视觉语言模型（VLM）转变为原生密集几何预测器，同时保留其多模态能力。论文声称该方法在推理效率上显著优于现有VLM，并提升了复杂3D空间推理能力。

MemLens：评估大型视觉语言模型多模态长期记忆的基准测试

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:10.935Z

根据2026年5月15日的论文分享，研究提出了名为MemLens的基准测试，用于评估大型视觉语言模型（LVLMs）在多模态多轮对话中的记忆能力。该基准包含789个问题，涵盖五种记忆能力，测试了27个LVLMs和7个记忆增强智能体，发现目前尚无单一方法能完全解决此类任务。

MMProLong：通过平衡数据训练使长上下文视觉语言模型泛化至512K

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:08.822Z

该研究（2026年5月14日发表于HuggingFace Daily Papers）提出MMProLong训练配方，用于提升长上下文视觉语言模型的泛化能力。该研究通过平衡不同长度的数据分布进行持续预训练，在5B token预算下，成功将Qwen2.5-VL-7B模型的上下文从32K扩展至128K，并在长文档VQA任务上提升了7.1%的性能，且在未额外训练的情况下泛化至256K和512K上下文。

精选帖子

相关作者