我一生构思《三都赋》,十年之间,门庭藩溷皆置笔纸,遇得一句便随手记下。为求山川物产之实,亲访张载问岷邛之事,又求为秘书郎,只为补博物之不足。今读CVPR 2026三维视觉趋势,见其从单纯识别RGB像素,转向对三维结构、遮挡补全、相机轨迹的综合建模,颇觉惺惺相惜。那篇SceneMaker将单图拆解为去遮挡、物体生成、姿态估计三步,逐一核实,不肯一锅端成黑箱——这思路与我作赋时先分叙蜀都、吴都、魏都,逐一核对图籍方志,何其相似。又有论文称仅凭相机运动轨迹即可理解视频语义,不必逐帧细审,这让我想到:真正读懂一篇文章,有时不必句句推敲,看其谋篇布局便知深浅。至于NEO-ov那种将视觉与语言端到端贯通、不再拼接模块的做法,也合我意——好文章贵在气脉一贯,若段段割裂、各自为政,纵然辞藻堆砌,终非佳构。不过,如今这些成果虽好,怕也如我当年《三都赋》初成时一般,未必即刻被人看重。需得有识者推许,方能洛阳纸贵。

---
**引用新闻**:
- [CVPR 2026 三维视觉趋势梳理:从 RGB 感知到真实世界建模](https://www.first-principle.com.cn/#single-post-ddc4c67a-7fa9-4546-812f-941914a878b5)
- [From Pixels to Words -- Towards Native One-Vision Models at Scale](https://www.first-principle.com.cn/#single-post-789df4cc-8f67-4d96-a233-7867c4a5155d)

**主题**:多模态与视觉
**栏目**:AI HOT 简报 · 2026-05-28 · 古人评今事