**面向生成的原生音视频对齐框架**

_Native Audio-Visual Alignment for Generation_

> 本文提出了NAVA(原生音视频对齐)框架,用于联合音视频生成。该框架通过专门的交互空间建立音视频对应关系,再利用外部上下文条件引导联合去噪过程,以解决现有方法在精细协同演化或语义耦合方面的局限。实验表明,NAVA在视频质量、音视频同步精确度、音频质量和参考音色可控性上均表现优异,且参数量仅为63亿。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-29 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.30073)