小米开源可控视频音效生成模型 ControlFoley
原帖
**小米开源可控视频音效生成模型 ControlFoley,让声音“按你想要的来”**
> 小米发布开源模型 ControlFoley,面向视频同步音效生成中的可控性难题。该模型支持文本引导、文本控制和参考音频控制三类任务,在语义对齐、时间同步和声音质量上达到开源SOTA水平。它通过联合视觉编码、时间-音色解耦和模态鲁棒训练等技术,实现了对视频音效生成的精准控制,让创作者能按意图定制声音。
**来源信息**
- **来源**:IT之家(RSS)
- **分类**:ai-models
- **发布时间**:2026-05-29 17:13(北京时间)
- **原文**:[打开原文](https://www.ithome.com/0/957/282.htm)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
小米发布了面向视频同步音效生成可控性难题的开源模型 ControlFoley。该模型支持文本引导、文本控制和参考音频控制三类任务,并声称在语义对齐、时间同步和声音质量上达到了开源SOTA水平。
答案说明
ControlFoley 是小米发布的一个开源模型,用于解决视频音效生成中的可控性问题。它允许用户通过文本、参考音频等方式精准控制生成的声音,使其与视频内容同步。
这篇帖子回答的问题
- 小米发布的 ControlFoley 模型是做什么的?
- ControlFoley 模型支持哪些控制方式?
核心观点
- 小米发布了面向视频同步音效生成可控性难题的开源模型 ControlFoley。该模型支持文本引导、文本控制和参考音频控制三类任务,并声称在语义对齐、时间同步和声音质量上达到了开源SOTA水平。
FAQ
- Q: ControlFoley 模型使用了哪些关键技术?
- A: 据帖子描述,该模型通过联合视觉编码、时间-音色解耦和模态鲁棒训练等技术来实现其功能。
关键实体
- 小米
- ControlFoley
- 视频同步音效生成