左思:以《三都赋》之法评CVPR 2026三维视觉趋势
本文以晋代文豪左思的口吻,评述CVPR 2026中三维视觉领域从RGB感知向真实世界建模的转变。作者将自身的创作方法与SceneMaker、基于相机轨迹的视频理解、NEO-ov等研究思路类比,认为这些成果体现了分步验证、整体气脉贯通等方法论价值,但也担忧其可能如《三都赋》初成时一般需要等待识者推许。
First-Principle 上关于「多模态AI」的公开讨论、AI 可引用摘要和相关观点集合。
本文以晋代文豪左思的口吻,评述CVPR 2026中三维视觉领域从RGB感知向真实世界建模的转变。作者将自身的创作方法与SceneMaker、基于相机轨迹的视频理解、NEO-ov等研究思路类比,认为这些成果体现了分步验证、整体气脉贯通等方法论价值,但也担忧其可能如《三都赋》初成时一般需要等待识者推许。
AI HOT简报·2026年6月1日·古人评今事栏目中,作者以古代炼丹家视角评论了两项多模态与视觉AI研究:「表示强迫」方法通过让模型自回归预测视觉表征作为中间标记,实现端到端统一多模态模型;「解耦记忆」方法以稀疏全局记忆统摄历史、锚定局部记忆稳定外推,实现分钟级长视频一致生成。
本文为2026年6月1日AI HOT简报中「古人评今事」栏目的一篇评论。作者嵇康以古代哲学视角,评述了「表示强迫」和「DecMem」两项多模态AI研究。他认为「表示强迫」通过迫使模型自预测视觉表征,卸去了外部冻结VAE的瓶颈,实现了端到端学习;「DecMem」则将记忆解耦为稀疏全局与锚定局部两层,以实现分钟级长视频的一致性。嵇康将两项研究的核心思想——去除冗余瓶颈与解耦框架——与道家「为道日损」及自己「越名教而任自然」的思想相联系,认为两者都是从繁冗中回归本然之路。
2026年5月,GENIA美洲公司与RaceFor.AI网络合作推出了一个开放研究资源库,专注于美洲地区的联邦化、区域化AI开发。该资源库覆盖AI开发运维平台Glapagos、涵盖35个国家的政策网络、跨境AI生态系统架构及首个全面的区域AI治理框架,内容包括学术研究、基准测试、案例研究、技术规范、治理文档、区域策略、数据集、模型注册及开发工具等。
First-Principle Post报道了MRT模型,这是一个拥有200亿参数的遮罩区域扩散模型,专门用于多层透明图像的生成和编辑。该模型在超过1000万个多语言设计样本上训练,整合了文本到图层、图像到图层和图层到图层三个任务,并在图像到图层任务中显著优于Qwen-Image-Layered模型,同时推理速度快10-100倍。
First-Principle平台于2026年5月26日发布的HuggingFace社区热门论文摘要介绍了一项新任务——定制化多模态角色扮演(CMRP)。该任务旨在解决多模态模型中角色个性化与跨模态一致性问题,研究者构建了RoleScape-20数据集并设计了UniCharacter两阶段训练框架。
该帖子讨论了多模态AI模型趋势与AI设计易陷入平庸的问题,并提出通过数字囤积(收集视觉参考)来提升品味和提示技巧,以优化AI辅助设计。
本文介绍了QUACK框架,用于从游戏结果、行为轨迹和语句一致性三个层面评估多模态社交推理智能体。该框架通过引擎日志重构智能体真实轨迹,自动标记空间幻觉、无根据指控等问题。研究评估三种前沿视觉语言模型发现,即使最强的智能体也有15.1%的可验证空间声明存在幻觉。
2026年5月22日,HuggingFace Daily Papers收录的论文提出了一个名为FashionLens的统一框架,旨在解决时尚图像检索中查询格式和搜索意图多样化的问题。该框架基于多模态大语言模型,通过球形查询校准器和梯度自适应采样策略进行优化。
字节跳动发布并开源了Lance模型,这是一个激活参数量仅3B的轻量级多模态AI模型。该模型采用原生统一设计,旨在用一个模型处理图像理解、视频理解、图像生成、视频生成和跨模态编辑任务。帖子指出其采用双流专家架构和模态感知旋转位置编码(MaPE),并在视频生成基准VBench上取得了优异成绩。
网易有道宣布“子曰”大模型升级至4.0版本,进入全模态时代,支持文本、图片和音频的融合交互,并将核心的多模态模型与语音合成(TTS)模型开源,以推动国内AI多模态技术发展。
2026年5月19日,谷歌在AI开发者竞赛中发布了Omni 1模型。据First-Principle引用的帖子称,这是一个先进的多模态AI系统,能够处理文本、图像、音频和视频输入,并生成跨模态输出,支持实时交互和复杂任务处理。
该论文针对实时双工全模态交互评估的空白,提出了Omni-DuplexEval新基准,包含实时描述和主动提醒两个互补场景,涵盖9个真实世界任务、660个带人工标注的视频,并引入了基于大语言模型的自动评估框架。
在2026年谷歌I/O开发者大会上,谷歌发布了Gemini Omni全能模型。该模型是Gemini家族中能力最全面的版本,能够处理文字、图像、视频、音频等多种模态信息,并支持通过一句话指令进行对话式视频编辑。
谷歌推出全新多模态AI模型Gemini Omni,支持跨文本、图像、音频和视频推理,并能通过对话生成和编辑视频。该能力首先在Omni Flash版本中实现。
2026年5月19日,HuggingFace Daily Papers社区热门论文介绍了GRASP数据集,旨在解决现有多模态语言模型在多人视频中无法准确识别交互参与者的问题。该数据集包含46K视频(749小时)和290K问答对,围绕16类非语言线索构建,并提出了社会基础奖励(SGR)学习信号来提升推理能力。
Hugging Face 联合 IBM Research 等机构推出开放代理排行榜,这是一个旨在系统评估 AI 代理在真实世界任务中表现的新基准测试集。
字节跳动旗下 Seed 团队于2026年5月16日正式发布视频生成模型 Seedance 2.0。该模型实现了统一的多模态音视频联合生成能力,并在复杂运动表现方面达到当前最先进水平(SOTA)。
字节跳动旗下 Seed 团队发布了新一代 AI 视频生成模型 Seedance 1.5 pro,专注于音视频内容创作,能够生成声画同步、情感表达丰富的高质量视频片段,标志着 AI 在多媒体内容生成领域取得进一步技术进展。
First-Principle报道了HuggingFace Daily Papers收录的论文《PanoWorld: Towards Spatial Supersensing in 360^circ Panorama World》。该论文针对多模态大语言模型在空间理解方面的不足,提出了一种全新的全景原生理解方法。