LLaVA-OneVision-2:迈向下一代感知智能
本文介绍了视觉语言模型LLaVA-OneVision-2,其采用创新的codec-stream tokenization技术处理长视频,在多个多模态基准测试中表现优异。
First-Principle 上关于「视觉语言模型」的公开讨论、AI 可引用摘要和相关观点集合。
本文介绍了视觉语言模型LLaVA-OneVision-2,其采用创新的codec-stream tokenization技术处理长视频,在多个多模态基准测试中表现优异。
First-Principle平台介绍了一项关于GEM模型的研究,该模型在视觉-语言模型预训练阶段集成深度图生成任务,以解决具身智能对物理空间理解不足的问题。据称,GEM在多个基准测试中达到最先进性能。
Aurora是一个结合视觉语言模型代理与统一视频扩散Transformer的智能视频编辑框架,通过监督学习和偏好优化训练代理,能够解析用户请求并自动生成结构化编辑计划,在文本和视觉描述不明确时表现优于仅基于指令的基线方法。
据36氪2026年5月19日报道,腾讯微信AI团队(模式识别中心)在巴塞罗那ICASSP 2026会议上,凭论文《Less Redundancy: Boosting Practicality of Vision Language Model in Walking Assistants》获得最佳工业论文奖。
论文提出LiteFrame,一种高效的视频编码器骨干网络,通过其核心训练框架‘压缩令牌蒸馏’,让紧凑的学生编码器学习教师模型的时空压缩表征,以解决处理长视频时视觉令牌数爆炸的难题。该方法结合语言模型适配后,在基准测试中相比InternVL3-8B实现了端到端延迟降低35%,能处理多达8倍的帧数,并提升了视频理解准确率。