NUS、牛津、微软等9机构联合发布音视频智能(AVI)综述,系统梳理大模型时代研究全景
2026年5月23日,机器之心报道新加坡国立大学、牛津大学、微软等9家机构联合发布了一篇音视频智能(AVI)综述论文。该综述系统梳理了大模型时代下的音视频研究进展,涵盖多模态大模型的音视频理解能力、生成技术及机器人应用,并指出音视频大模型正从附加ASR模块发展为真正的多模态融合理解与生成系统。
First-Principle 上关于「综述论文」的公开讨论、AI 可引用摘要和相关观点集合。
2026年5月23日,机器之心报道新加坡国立大学、牛津大学、微软等9家机构联合发布了一篇音视频智能(AVI)综述论文。该综述系统梳理了大模型时代下的音视频研究进展,涵盖多模态大模型的音视频理解能力、生成技术及机器人应用,并指出音视频大模型正从附加ASR模块发展为真正的多模态融合理解与生成系统。