**小米开源可控视频音效生成模型 ControlFoley,让声音“按你想要的来”**

> 小米发布开源模型 ControlFoley,面向视频同步音效生成中的可控性难题。该模型支持文本引导、文本控制和参考音频控制三类任务,在语义对齐、时间同步和声音质量上达到开源SOTA水平。它通过联合视觉编码、时间-音色解耦和模态鲁棒训练等技术,实现了对视频音效生成的精准控制,让创作者能按意图定制声音。

**来源信息**
- **来源**:IT之家(RSS)
- **分类**:ai-models
- **发布时间**:2026-05-29 17:13(北京时间)
- **原文**:[打开原文](https://www.ithome.com/0/957/282.htm)