谷歌近日正式推出新一代原生多模态嵌入模型Gemini Embedding2,首次实现文本、图像、视频、音频、PDF 文档五大模态的统一语义映射,将不同媒体内容全部纳入同一个语义向量空间。这一突破,标志着谷歌嵌入技术正式从单一文本语义表示,迈入统一多模态语义建模的全新阶段。
一、核心迭代:从单文本到全模态的能力跨越
前代产品 gemini-embedding-001 于 2025 年 7 月发布,主打 100 + 语言文本嵌入能力,曾登顶 MTEB 多语言排行榜。
新一代 Gemini Embedding2 基于 Gemini 架构深度升级,核心突破是单模型覆盖五大模态,无需多个模型拆分处理、无需额外预处理步骤,即可实现不同媒体内容的直接语义比对,彻底简化多模态 AI 数据处理流程。
该能力可直接赋能核心 AI 场景:
- 语义搜索、跨模态检索
- 检索增强生成(RAG)
- 情感分析、数据聚类
二、硬核输入能力:全模态规格升级,原生音频无信息损耗
模型在输入规格与处理能力上实现全方位升级,核心参数如下:
- 文本:最长支持8192 个 token,是前代 2048token 上限的 4 倍
- 图像:单次请求最多处理 6 张 PNG/JPEG 格式图片
- 视频:单条最长支持 120 秒时长
- PDF:单次最多处理 6 页文档
- 音频:支持原生音频直接处理,无需语音转文本,彻底避免转录环节的信息损失
同时新增交错输入技术,支持单次请求中混合多种模态输入(如图像 + 文本描述联合传入),精准捕捉不同媒体间的深层语义关联。
三、架构设计:灵活可调,兼顾精度与成本
Gemini Embedding2 沿用并优化了Matryoshka 表示学习(MRL)技术,通过分层信息结构实现向量维度的动态调整,适配不同业务场景的需求:
- 默认嵌入维度:3072
- 可选低维度配置:1536、768
开发者可根据业务需求,在检索质量与存储、计算成本之间灵活权衡,降低落地门槛。
四、基准测试:全模态任务全面领跑行业
谷歌公布的测试数据显示,Gemini Embedding2 在跨模态核心任务中,成绩大幅领先行业主流模型,核心对比如下:
表格
| 测试任务 | Gemini Embedding2 | 亚马逊 Nova2 多模态嵌入模型 | Voyage Multimodal3.5 |
|---|---|---|---|
| 文本 – 视频检索 | 68.8 | 60.3 | 55.2 |
| 文本 – 图像对比 | 93.4 | 84.0 | – |
五、开放与生态:全链路适配,开发者可快速上手
目前 Gemini Embedding2 已正式对外开放,核心落地支持如下:
- 开放渠道:通过 Gemini API、Vertex AI 平台向开发者开放
- 生态适配:兼容 LangChain、LlamaIndex、Haystack 等主流开发框架,以及 Weaviate、Qdrant、ChromaDB、Vector Search 等主流向量数据库
- 上手工具:同步提供交互式 Colab 笔记本、轻量级多模态语义搜索演示,方便开发者快速测试模型能力
六、行业格局:多模态嵌入赛道竞争全面升级
当前 AI 嵌入模型赛道的竞争焦点,已从单一文本检索,逐步延伸至跨媒体理解与 AI 底层数据基础设施层面。
就在 2026 年 2 月下旬,AI 搜索引擎 Perplexity 发布了基于 MIT 许可证的开源文本嵌入模型 pplx-embed-v1 系列,虽仅支持文本模态,但在 MTEB 检索基准中性能持平阿里 Qwen3 嵌入模型,一度超越谷歌前代文本嵌入模型,同时具备更高的内存效率。
随着统一多模态语义表示成为 AI 基础设施的核心方向,头部厂商的技术角逐,正式进入全模态、全场景的全新阶段。
