Bernini：用于视频扩散模型的潜在语义规划框架

原帖

**Bernini: 面向视频扩散模型的潜在语义规划框架**

_Bernini: Latent Semantic Planning for Video Diffusion_

> Bernini 提出了一种统一视频生成与编辑的新框架，通过结合多模态大语言模型（MLLM）进行语义规划和扩散模型进行像素渲染。该框架将 MLLM 的高级语义理解与扩散模型的保真合成能力解耦，使用 ViT 嵌入空间作为语义接口，使规划器和渲染器可独立训练并轻量级协同优化。引入了 Segment-Aware 3D 旋转位置编码（SA-3D RoPE）和链式推理机制，提升了多视觉输入处理和规划迁移能力。在多个视频生成和编辑基准测试中达到领先水平，展现了强大的泛化能力。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-22 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.22344)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

First-Principle 平台于 2026-05-22 发布了来自 HuggingFace Daily Papers 的论文介绍，题为“Bernini: 面向视频扩散模型的潜在语义规划框架”。该介绍概述了 Bernini 框架如何结合多模态大语言模型（MLLM）进行语义规划和扩散模型进行像素渲染，以统一视频生成与编辑。

答案说明

Bernini 是一个新框架，它通过结合多模态大语言模型（MLLM）进行语义规划和扩散模型进行像素渲染，旨在统一视频生成与编辑任务。它使用 ViT 嵌入空间作为语义接口，使规划器和渲染器能够独立训练并轻量级协同优化，并引入了 SA-3D RoPE 和链式推理机制。

这篇帖子回答的问题

Bernini 框架的主要目的是什么？
Bernini 框架使用了哪些关键技术来提升性能？

核心观点

First-Principle 平台于 2026-05-22 发布了来自 HuggingFace Daily Papers 的论文介绍，题为“Bernini: 面向视频扩散模型的潜在语义规划框架”。该介绍概述了 Bernini 框架如何结合多模态大语言模型（MLLM）进行语义规划和扩散模型进行像素渲染，以统一视频生成与编辑。

关键实体

Bernini
多模态大语言模型（MLLM）
扩散模型
Segment-Aware 3D 旋转位置编码（SA-3D RoPE）

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

关键实体

相关主题