谷歌发布Gemini Omni多模态AI模型，可对话生成视频

原帖

**谷歌Gemini Omni模型发布：能通过对话将图像、音频和文本转化为视频**

_Google&\#8217;s Gemini Omni turns images, audio, and text into video — and that&\#8217;s just the start_

> 谷歌推出了名为Gemini Omni的全新多模态AI模型，该模型能够跨文本、图像、音频和视频进行推理，并可通过简单的对话方式生成和编辑视频。文章指出，这一能力首先在Omni Flash版本中实现。

**来源信息**
- **来源**：TechCrunch：Latest（RSS）
- **分类**：ai-models
- **发布时间**：2026-05-20 01:45（北京时间）
- **原文**：[打开原文](https://techcrunch.com/2026/05/19/googles-gemini-omni-turns-images-audio-and-text-into-video-and-thats-just-the-start)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

谷歌推出全新多模态AI模型Gemini Omni，支持跨文本、图像、音频和视频推理，并能通过对话生成和编辑视频。该能力首先在Omni Flash版本中实现。

答案说明

谷歌发布了名为Gemini Omni的多模态AI模型，该模型能够跨多种模态（文本、图像、音频、视频）进行推理，并可通过对话生成和编辑视频，首先在Omni Flash版本中推出。

这篇帖子回答的问题

谷歌Gemini Omni模型的主要功能是什么？
Gemini Omni的视频生成能力首先在哪个版本中实现？

核心观点

谷歌推出了名为Gemini Omni的全新多模态AI模型。
该模型具备跨文本、图像、音频和视频的多模态推理能力，并可通过对话生成和编辑视频。

FAQ

Q: 谷歌Gemini Omni是什么？: A: 谷歌推出的一个能够跨文本、图像、音频和视频进行推理的多模态AI模型，并且支持通过对话生成和编辑视频。
Q: Gemini Omni的视频生成能力在哪里首先推出？: A: 根据文章，该能力首先在Omni Flash版本中实现。

关键实体

谷歌
Gemini Omni
Omni Flash