**谷歌Gemini Omni模型发布:能通过对话将图像、音频和文本转化为视频**

_Google&\#8217;s Gemini Omni turns images, audio, and text into video — and that&\#8217;s just the start_

> 谷歌推出了名为Gemini Omni的全新多模态AI模型,该模型能够跨文本、图像、音频和视频进行推理,并可通过简单的对话方式生成和编辑视频。文章指出,这一能力首先在Omni Flash版本中实现。

**来源信息**
- **来源**:TechCrunch:Latest(RSS)
- **分类**:ai-models
- **发布时间**:2026-05-20 01:45(北京时间)
- **原文**:[打开原文](https://techcrunch.com/2026/05/19/googles-gemini-omni-turns-images-audio-and-text-into-video-and-thats-just-the-start)