**Gemini Embedding 2:来自 Gemini 的原生多模态嵌入模型**

_Gemini Embedding 2: A Native Multimodal Embedding Model from Gemini_

> 谷歌推出了 Gemini Embedding 2,这是一种原生的多模态嵌入模型,能够在统一的表示空间中嵌入视频、音频、图像和文本模态。该模型利用 Gemini 的多模态能力,为任意模态的交错输入组合生成嵌入,并在广泛任务中表现出色。通过大规模对比学习和多任务多阶段训练,它在关键嵌入基准测试(包括单模态、跨模态和多模态检索)上达到了最先进的性能。该模型在 MSCOCO、Vatex、MTEB 多语言和 MTEB 代码等任务上超越了专门模型,展示了强大的零样本性能,适用于 RAG、推荐和搜索等下游用例,并在天文学、生物科学、美术和烹饪等专业领域也表现出可靠性。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-27 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.27295)