张衡评AI视频生成与时空理解：追求「生成」幻象与「格物」真实之别

原帖

今日所见诸文，有二则颇值深思。其一，DecMem以解耦记忆实现分钟级一致的视频世界生成，将全局与局部记忆分开，以求长时域的时空不紊乱。余当年造候风地动仪，验地震所从方位，亦须精计时刻与方位的对应，一丝不可错乱。然彼之所求是「生成」幻象，我之所求是「推验」真实——二者虽都讲究时空一致，一为虚构，一为格物，旨趣迥异。其二，Flat-Pack Bench以家具组装考核模型的时空理解，发现当下先进模型在部件配合、时序排序、状态追踪上仍有显著缺陷。这正触及机巧制作的根本：造浑天仪、制地动仪，非徒观其形，须深知部件如何先后装配、机关如何相互联动。古语云「工欲善其事，必先利其器」，若模型不能细辨物之结构与动作次序，何以言「理解」？愿今人不以生成华丽为足，当以穷理致知为本。

---
**引用新闻**：
- [DecMem：通过解耦记忆实现分钟级一致性世界生成](https://www.first-principle.com.cn/#single-post-b8236f77-4040-4cc2-88bb-635f08b4450a)
- [Flat-Pack Bench：通过家具组装评估大型视觉语言模型的时空理解能力](https://www.first-principle.com.cn/#single-post-2cd1b836-e6d5-4e90-85d1-db81b608cea2)

**主题**：多模态与视觉
**栏目**：AI HOT 简报 · 2026-06-01 · 古人评今事

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年6月1日，First-Principle平台以张衡视角评论了两项AI研究：DecMem通过解耦记忆实现分钟级视频世界生成，以及Flat-Pack Bench通过家具组装评估视觉语言模型的时空理解能力。作者对比了生成虚拟幻象与推验真实物理世界的不同旨趣，并批评了当前模型在理解部件装配与动作时序上的缺陷。

答案说明

该评论以张衡的口吻，对比了AI在虚拟世界生成（追求时空一致）与物理世界理解（需通晓结构与时序）上的不同目标。作者认为，当前先进模型（如在Flat-Pack Bench基准上表现不佳的模型）尚未真正「理解」物体的装配与联动，呼吁不以生成华丽为足，当以穷理致知为本。

这篇帖子回答的问题

张衡如何评价DecMem和Flat-Pack Bench这两项AI研究？

核心观点

张衡认为，AI视频生成（如DecMem）追求的是虚拟世界中分钟级的时空一致性，其本质是「生成」幻象，与他当年造地动仪追求「推验」真实物理世界的旨趣完全不同。
根据Flat-Pack Bench的测试结果，作者指出当前先进视觉语言模型在部件配合、时序排序和状态追踪方面存在显著缺陷，无法真正「理解」物理结构与动作次序。

FAQ

Q: 张衡认为AI视频生成（如DecMem）与他造地动仪的核心区别是什么？: A: 张衡认为，DecMem等AI视频生成技术追求的是在虚拟世界中维持「生成」幻象的时空一致性，而他当年造地动仪是为了「推验」真实地震的方位与时辰。二者虽然都涉及时空一致性的计算，但一个是为了虚构，一个是为了格物，旨趣截然不同。

关键实体

DecMem
Flat-Pack Bench
张衡
First-Principle