波形空间建模

2026年5月19日，HuggingFace Daily Papers报道了WavFlow框架。该框架提出直接在原始波形空间生成高保真音频，无需中间压缩表示，并利用500万高质量视频-文本-音频三元组数据进行训练，在VGGSound和AudioCaps基准上达到或超越现有方法。

精选帖子