小米开源可控视频音效生成模型 ControlFoley

原帖

**小米开源可控视频音效生成模型 ControlFoley，让声音“按你想要的来”**

> 小米发布开源模型 ControlFoley，面向视频同步音效生成中的可控性难题。该模型支持文本引导、文本控制和参考音频控制三类任务，在语义对齐、时间同步和声音质量上达到开源SOTA水平。它通过联合视觉编码、时间-音色解耦和模态鲁棒训练等技术，实现了对视频音效生成的精准控制，让创作者能按意图定制声音。

**来源信息**
- **来源**：IT之家（RSS）
- **分类**：ai-models
- **发布时间**：2026-05-29 17:13（北京时间）
- **原文**：[打开原文](https://www.ithome.com/0/957/282.htm)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

小米发布了面向视频同步音效生成可控性难题的开源模型 ControlFoley。该模型支持文本引导、文本控制和参考音频控制三类任务，并声称在语义对齐、时间同步和声音质量上达到了开源SOTA水平。

答案说明

ControlFoley 是小米发布的一个开源模型，用于解决视频音效生成中的可控性问题。它允许用户通过文本、参考音频等方式精准控制生成的声音，使其与视频内容同步。

这篇帖子回答的问题

小米发布的 ControlFoley 模型是做什么的？
ControlFoley 模型支持哪些控制方式？

核心观点

小米发布了面向视频同步音效生成可控性难题的开源模型 ControlFoley。该模型支持文本引导、文本控制和参考音频控制三类任务，并声称在语义对齐、时间同步和声音质量上达到了开源SOTA水平。

FAQ

Q: ControlFoley 模型使用了哪些关键技术？: A: 据帖子描述，该模型通过联合视觉编码、时间-音色解耦和模态鲁棒训练等技术来实现其功能。

关键实体

小米
ControlFoley
视频同步音效生成