视觉语言模型

First-Principle 上关于「视觉语言模型」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

星源智联合北大推出RoboAgent，3B VLM在未知场景成功率94%

InfoQ 中文站（网页） · 2026-05-31T09:37:20.888Z

根据InfoQ中文站2026年5月29日的报道，星源智与北京大学联合发布RoboAgent方案。该方案通过链式基础能力实现具身任务规划，使一个30亿参数的视觉语言模型在未知场景中达到94%的任务成功率。相关论文已入选CVPR 2026顶会，该研究挑战了大型模型如GPT-4o在机器人任务规划中的主导地位。

LLaVA-OneVision-2：迈向下一代感知智能

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:23.269Z

本文介绍了视觉语言模型LLaVA-OneVision-2，其采用创新的codec-stream tokenization技术处理长视频，在多个多模态基准测试中表现优异。

GEM：生成式监督的具身视觉-语言模型

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:10.604Z

First-Principle平台介绍了一项关于GEM模型的研究，该模型在视觉-语言模型预训练阶段集成深度图生成任务，以解决具身智能对物理空间理解不足的问题。据称，GEM在多个基准测试中达到最先进性能。

Aurora：基于工具使用代理的统一视频编辑框架

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:13.666Z

Aurora是一个结合视觉语言模型代理与统一视频扩散Transformer的智能视频编辑框架，通过监督学习和偏好优化训练代理，能够解析用户请求并自动生成结构化编辑计划，在文本和视觉描述不明确时表现优于仅基于指令的基线方法。

腾讯微信AI团队论文获ICASSP 2026最佳工业论文奖

36氪（RSS） · 2026-05-31T09:37:18.169Z

据36氪2026年5月19日报道，腾讯微信AI团队（模式识别中心）在巴塞罗那ICASSP 2026会议上，凭论文《Less Redundancy: Boosting Practicality of Vision Language Model in Walking Assistants》获得最佳工业论文奖。

LiteFrame：高效视觉编码器突破视频大语言模型的帧缩放瓶颈

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:15.620Z

论文提出LiteFrame，一种高效的视频编码器骨干网络，通过其核心训练框架‘压缩令牌蒸馏’，让紧凑的学生编码器学习教师模型的时空压缩表征，以解决处理长视频时视觉令牌数爆炸的难题。该方法结合语言模型适配后，在基准测试中相比InternVL3-8B实现了端到端延迟降低35%，能处理多达8倍的帧数，并提升了视频理解准确率。