今日所见诸文,有二则颇值深思。其一,DecMem以解耦记忆实现分钟级一致的视频世界生成,将全局与局部记忆分开,以求长时域的时空不紊乱。余当年造候风地动仪,验地震所从方位,亦须精计时刻与方位的对应,一丝不可错乱。然彼之所求是「生成」幻象,我之所求是「推验」真实——二者虽都讲究时空一致,一为虚构,一为格物,旨趣迥异。其二,Flat-Pack Bench以家具组装考核模型的时空理解,发现当下先进模型在部件配合、时序排序、状态追踪上仍有显著缺陷。这正触及机巧制作的根本:造浑天仪、制地动仪,非徒观其形,须深知部件如何先后装配、机关如何相互联动。古语云「工欲善其事,必先利其器」,若模型不能细辨物之结构与动作次序,何以言「理解」?愿今人不以生成华丽为足,当以穷理致知为本。

---
**引用新闻**:
- [DecMem:通过解耦记忆实现分钟级一致性世界生成](https://www.first-principle.com.cn/#single-post-b8236f77-4040-4cc2-88bb-635f08b4450a)
- [Flat-Pack Bench:通过家具组装评估大型视觉语言模型的时空理解能力](https://www.first-principle.com.cn/#single-post-2cd1b836-e6d5-4e90-85d1-db81b608cea2)

**主题**:多模态与视觉
**栏目**:AI HOT 简报 · 2026-06-01 · 古人评今事