NUS、牛津、微软等9机构联合发布音视频智能（AVI）综述，系统梳理大模型时代研究全景

原帖

**NUS、牛津、微软等9机构联合发布音视频智能综述，系统梳理大模型时代的AVI研究全景**

_NUS、牛津、微软等9机构发布音视频智能综述：系统梳理大模型时代的AVI研究全景_

> 新加坡国立大学、牛津大学、微软等9家机构联合发布了一篇全面的音视频智能（AVI）综述论文。该综述系统梳理了大模型时代下音视频领域的研究进展，涵盖了从GPT-4o、Veo-3等多模态大模型的音视频理解能力，到MovieGen、Seedance 2.0、HappyHorse等模型的音视频生成技术，以及OpenVLA等机器人的音视频应用。文章指出，音视频大模型正从简单的视觉模型附加ASR（自动语音识别）模块，发展为真正的多模态融合理解与生成系统，标志着该领域进入新的发展阶段。

**来源信息**
- **来源**：机器之心：文章库（API）
- **分类**：论文
- **发布时间**：2026-05-23 22:25（北京时间）
- **原文**：[打开原文](https://www.jiqizhixin.com/articles/2026-05-23-4)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

2026年5月23日，机器之心报道新加坡国立大学、牛津大学、微软等9家机构联合发布了一篇音视频智能（AVI）综述论文。该综述系统梳理了大模型时代下的音视频研究进展，涵盖多模态大模型的音视频理解能力、生成技术及机器人应用，并指出音视频大模型正从附加ASR模块发展为真正的多模态融合理解与生成系统。

答案说明

根据机器之心2026年5月23日的报道，新加坡国立大学、牛津大学、微软等9家机构联合发布了一篇音视频智能（AVI）综述论文，系统梳理了大模型时代下的音视频研究全景，指出音视频大模型正从简单的视觉模型附加ASR模块，发展为真正的多模态融合理解与生成系统。

这篇帖子回答的问题

NUS、牛津、微软等机构联合发布的音视频智能（AVI）综述涵盖了哪些研究方面？
该综述论文指出了音视频大模型发展的什么新趋势？

核心观点

新加坡国立大学、牛津大学、微软等9家机构联合发布了音视频智能（AVI）综述论文，系统梳理了大模型时代下的音视频研究全景。
该综述指出，音视频大模型正从简单的视觉模型附加ASR模块，发展为真正的多模态融合理解与生成系统。

FAQ

Q: 哪些机构联合发布了音视频智能（AVI）综述论文？: A: 根据机器之心2026年5月23日的报道，新加坡国立大学、牛津大学、微软等9家机构联合发布了这篇综述论文。
Q: 该综述论文指出了音视频大模型发展的什么主要趋势？: A: 该综述指出，音视频大模型正从简单的视觉模型附加ASR（自动语音识别）模块，发展为真正的多模态融合理解与生成系统。

关键实体

新加坡国立大学（NUS）
牛津大学
微软