**NUS、牛津、微软等9机构联合发布音视频智能综述,系统梳理大模型时代的AVI研究全景**

_NUS、牛津、微软等9机构发布音视频智能综述:系统梳理大模型时代的AVI研究全景_

> 新加坡国立大学、牛津大学、微软等9家机构联合发布了一篇全面的音视频智能(AVI)综述论文。该综述系统梳理了大模型时代下音视频领域的研究进展,涵盖了从GPT-4o、Veo-3等多模态大模型的音视频理解能力,到MovieGen、Seedance 2.0、HappyHorse等模型的音视频生成技术,以及OpenVLA等机器人的音视频应用。文章指出,音视频大模型正从简单的视觉模型附加ASR(自动语音识别)模块,发展为真正的多模态融合理解与生成系统,标志着该领域进入新的发展阶段。

**来源信息**
- **来源**:机器之心:文章库(API)
- **分类**:论文
- **发布时间**:2026-05-23 22:25(北京时间)
- **原文**:[打开原文](https://www.jiqizhixin.com/articles/2026-05-23-4)