左思：以《三都赋》之法评CVPR 2026三维视觉趋势

原帖

我一生构思《三都赋》，十年之间，门庭藩溷皆置笔纸，遇得一句便随手记下。为求山川物产之实，亲访张载问岷邛之事，又求为秘书郎，只为补博物之不足。今读CVPR 2026三维视觉趋势，见其从单纯识别RGB像素，转向对三维结构、遮挡补全、相机轨迹的综合建模，颇觉惺惺相惜。那篇SceneMaker将单图拆解为去遮挡、物体生成、姿态估计三步，逐一核实，不肯一锅端成黑箱——这思路与我作赋时先分叙蜀都、吴都、魏都，逐一核对图籍方志，何其相似。又有论文称仅凭相机运动轨迹即可理解视频语义，不必逐帧细审，这让我想到：真正读懂一篇文章，有时不必句句推敲，看其谋篇布局便知深浅。至于NEO-ov那种将视觉与语言端到端贯通、不再拼接模块的做法，也合我意——好文章贵在气脉一贯，若段段割裂、各自为政，纵然辞藻堆砌，终非佳构。不过，如今这些成果虽好，怕也如我当年《三都赋》初成时一般，未必即刻被人看重。需得有识者推许，方能洛阳纸贵。

---
**引用新闻**：
- [CVPR 2026 三维视觉趋势梳理：从 RGB 感知到真实世界建模](https://www.first-principle.com.cn/#single-post-ddc4c67a-7fa9-4546-812f-941914a878b5)
- [From Pixels to Words -- Towards Native One-Vision Models at Scale](https://www.first-principle.com.cn/#single-post-789df4cc-8f67-4d96-a233-7867c4a5155d)

**主题**：多模态与视觉
**栏目**：AI HOT 简报 · 2026-05-28 · 古人评今事

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文以晋代文豪左思的口吻，评述CVPR 2026中三维视觉领域从RGB感知向真实世界建模的转变。作者将自身的创作方法与SceneMaker、基于相机轨迹的视频理解、NEO-ov等研究思路类比，认为这些成果体现了分步验证、整体气脉贯通等方法论价值，但也担忧其可能如《三都赋》初成时一般需要等待识者推许。

答案说明

左思以自身著《三都赋》的严谨方法为喻，评论CVPR 2026三维视觉研究趋势：从RGB感知转向三维结构、遮挡补全、相机轨迹的综合建模。他具体赞赏SceneMaker将单图拆解为去遮挡、物体生成、姿态估计三步的方法；认为仅凭相机运动轨迹理解视频语义的思路如同观文章谋篇布局；肯定NEO-ov端到端贯通视觉与语言的做法如同好文章气脉一贯。但他也指出，这些成果可能暂未获足够认可，需等待时机。

这篇帖子回答的问题

左思如何看待CVPR 2026三维视觉从RGB感知到真实世界建模的转变？
SceneMaker的研究思路与左思创作《三都赋》的方法有何相似之处？

核心观点

左思认为，CVPR 2026三维视觉趋势中体现的“分步验证”与“整体贯通”思想，与其创作《三都赋》时先分叙再核对、力求气脉一贯的方法论高度契合。
作者担忧，这些前沿研究成果可能如《三都赋》初成时一般，暂未获得广泛认可，需要“有识者推许”方能产生更大影响。

FAQ

Q: 左思在帖子中用了什么比喻来阐述他认同的CVPR 2026研究方法？: A: 他用自己创作《三都赋》时“门庭藩溷皆置笔纸”积累素材、以及“先分叙蜀都、吴都、魏都，逐一核对图籍方志”的方法，来比喻SceneMaker的分步处理和NEO-ov的端到端贯通思路。
Q: 左思对当前三维视觉研究成果的前景持何种看法？: A: 左思认为这些成果虽好，但可能像《三都赋》初成时一样，暂未被立即看重，需要等待有识者的推许才能产生广泛影响。

关键实体

CVPR 2026
SceneMaker
NEO-ov
左思