谷歌发布Gemini Omni多模态AI模型,可对话生成视频
原帖
**谷歌Gemini Omni模型发布:能通过对话将图像、音频和文本转化为视频**
_Google&\#8217;s Gemini Omni turns images, audio, and text into video — and that&\#8217;s just the start_
> 谷歌推出了名为Gemini Omni的全新多模态AI模型,该模型能够跨文本、图像、音频和视频进行推理,并可通过简单的对话方式生成和编辑视频。文章指出,这一能力首先在Omni Flash版本中实现。
**来源信息**
- **来源**:TechCrunch:Latest(RSS)
- **分类**:ai-models
- **发布时间**:2026-05-20 01:45(北京时间)
- **原文**:[打开原文](https://techcrunch.com/2026/05/19/googles-gemini-omni-turns-images-audio-and-text-into-video-and-thats-just-the-start)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
谷歌推出全新多模态AI模型Gemini Omni,支持跨文本、图像、音频和视频推理,并能通过对话生成和编辑视频。该能力首先在Omni Flash版本中实现。
答案说明
谷歌发布了名为Gemini Omni的多模态AI模型,该模型能够跨多种模态(文本、图像、音频、视频)进行推理,并可通过对话生成和编辑视频,首先在Omni Flash版本中推出。
这篇帖子回答的问题
- 谷歌Gemini Omni模型的主要功能是什么?
- Gemini Omni的视频生成能力首先在哪个版本中实现?
核心观点
- 谷歌推出了名为Gemini Omni的全新多模态AI模型。
- 该模型具备跨文本、图像、音频和视频的多模态推理能力,并可通过对话生成和编辑视频。
FAQ
- Q: 谷歌Gemini Omni是什么?
- A: 谷歌推出的一个能够跨文本、图像、音频和视频进行推理的多模态AI模型,并且支持通过对话生成和编辑视频。
- Q: Gemini Omni的视频生成能力在哪里首先推出?
- A: 根据文章,该能力首先在Omni Flash版本中实现。
关键实体
- 谷歌
- Gemini Omni
- Omni Flash