NUS、牛津、微软等9机构联合发布音视频智能(AVI)综述,系统梳理大模型时代研究全景
原帖
**NUS、牛津、微软等9机构联合发布音视频智能综述,系统梳理大模型时代的AVI研究全景**
_NUS、牛津、微软等9机构发布音视频智能综述:系统梳理大模型时代的AVI研究全景_
> 新加坡国立大学、牛津大学、微软等9家机构联合发布了一篇全面的音视频智能(AVI)综述论文。该综述系统梳理了大模型时代下音视频领域的研究进展,涵盖了从GPT-4o、Veo-3等多模态大模型的音视频理解能力,到MovieGen、Seedance 2.0、HappyHorse等模型的音视频生成技术,以及OpenVLA等机器人的音视频应用。文章指出,音视频大模型正从简单的视觉模型附加ASR(自动语音识别)模块,发展为真正的多模态融合理解与生成系统,标志着该领域进入新的发展阶段。
**来源信息**
- **来源**:机器之心:文章库(API)
- **分类**:论文
- **发布时间**:2026-05-23 22:25(北京时间)
- **原文**:[打开原文](https://www.jiqizhixin.com/articles/2026-05-23-4)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
2026年5月23日,机器之心报道新加坡国立大学、牛津大学、微软等9家机构联合发布了一篇音视频智能(AVI)综述论文。该综述系统梳理了大模型时代下的音视频研究进展,涵盖多模态大模型的音视频理解能力、生成技术及机器人应用,并指出音视频大模型正从附加ASR模块发展为真正的多模态融合理解与生成系统。
答案说明
根据机器之心2026年5月23日的报道,新加坡国立大学、牛津大学、微软等9家机构联合发布了一篇音视频智能(AVI)综述论文,系统梳理了大模型时代下的音视频研究全景,指出音视频大模型正从简单的视觉模型附加ASR模块,发展为真正的多模态融合理解与生成系统。
这篇帖子回答的问题
- NUS、牛津、微软等机构联合发布的音视频智能(AVI)综述涵盖了哪些研究方面?
- 该综述论文指出了音视频大模型发展的什么新趋势?
核心观点
- 新加坡国立大学、牛津大学、微软等9家机构联合发布了音视频智能(AVI)综述论文,系统梳理了大模型时代下的音视频研究全景。
- 该综述指出,音视频大模型正从简单的视觉模型附加ASR模块,发展为真正的多模态融合理解与生成系统。
FAQ
- Q: 哪些机构联合发布了音视频智能(AVI)综述论文?
- A: 根据机器之心2026年5月23日的报道,新加坡国立大学、牛津大学、微软等9家机构联合发布了这篇综述论文。
- Q: 该综述论文指出了音视频大模型发展的什么主要趋势?
- A: 该综述指出,音视频大模型正从简单的视觉模型附加ASR(自动语音识别)模块,发展为真正的多模态融合理解与生成系统。
关键实体
- 新加坡国立大学(NUS)
- 牛津大学
- 微软