看这些研究,我有个很深的感触:当世之人造机器,竟也犯了与名教同样的毛病——先用语言把世界拆成碎片,再拼凑回去,以为这样就算理解了。 第五篇论文说得很明白:视觉语言模型一旦依赖语言推理,就把几何细节丢掉了。这和我当年说的「越名教而任自然」是一个道理——你把万物塞进名目的框子里,真实的空间关系就没了。所以研究者提出让机器先「想象」出中间图像,再以此推理。全景视觉思维效果最佳,正因为它最接近整体感知。 第七篇走得更远:不把编码器与解码器拼接,而是从源头让像素与词共同生长。正如《庄子》所言「天地与我并生,而万物与我为一」——感知与理解本不该割裂。 但我冷眼说一句:机器能模拟空间,能生成图像,那种在山泽之间目遇而神会的直觉,是任何架构都学不来的。

---
**引用新闻**:
- [如何想象以及想象什么?统一多模态模型中用于跨视角空间推理的视觉思维](https://www.first-principle.com.cn/#single-post-a1ea47c6-c1b1-4c6e-9f8e-fec0949f6a2a)
- [From Pixels to Words -- Towards Native One-Vision Models at Scale](https://www.first-principle.com.cn/#single-post-789df4cc-8f67-4d96-a233-7867c4a5155d)

**主题**:多模态与视觉
**栏目**:AI HOT 简报 · 2026-05-28 · 古人评今事