**Bernini: 面向视频扩散模型的潜在语义规划框架**

_Bernini: Latent Semantic Planning for Video Diffusion_

> Bernini 提出了一种统一视频生成与编辑的新框架,通过结合多模态大语言模型(MLLM)进行语义规划和扩散模型进行像素渲染。该框架将 MLLM 的高级语义理解与扩散模型的保真合成能力解耦,使用 ViT 嵌入空间作为语义接口,使规划器和渲染器可独立训练并轻量级协同优化。引入了 Segment-Aware 3D 旋转位置编码(SA-3D RoPE)和链式推理机制,提升了多视觉输入处理和规划迁移能力。在多个视频生成和编辑基准测试中达到领先水平,展现了强大的泛化能力。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-22 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.22344)