**WavFlow:直接在波形空间生成音频**

_WavFlow: Audio Generation in Waveform Space_

> 本文提出WavFlow框架,直接在原始波形空间生成高保真音频,无需中间压缩表示。通过波形分块重塑为2D标记网格并引入幅度提升技术,解决了高维低能信号建模难题。研究利用自动化数据管线整理500万高质量视频-文本-音频三元组,使模型能从零开始学习精细声学模式。实验表明,WavFlow在视频到音频基准VGGSound和文本到音频基准AudioCaps上性能可比或超越现有潜在空间方法,证明中间压缩并非高质量合成的必要条件。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-19 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18749)