Google放大招：文字、图片、视频、音频、PDF，全部压进同一个向量空间！Gemini Embedding 2正式GA

9933点击 2026-05-02 15:05

导读

Google悄悄干了一件大事——Gemini Embedding 2正式进入GA阶段，成为Gemini API中第一个原生多模态embedding模型。它能把文本、图片、视频、音频、PDF文档全部映射进同一个统一向量空间，支持100多种语言。已有法律检索公司Harvey、记忆型数据库Supermemory、时尚电商Nuuly跑出实打实的指标提升。开发者社区炸了，但质疑声也同步跟上。

一条推文，撕开了AI检索的新底牌

5月1日，Google for Developers官方账号发了一条看起来不太起眼的推文：

"Now that Gemini Embedding 2 is GA, let's explore what the model unlocks — from agentic multimodal RAG to visual search — as it maps text, images, video, audio, and documents into a unified embedding space."

「Gemini Embedding 2已经GA了，来看看它解锁了什么——从agentic多模态RAG到视觉搜索——它把文本、图片、视频、音频和文档映射进一个统一的embedding空间。」

Google放大招：文字、图片、视频、音频、PDF，全部压进同一个向量空间！Gemini Embedding 2正式GA

▲ Google for Developers 官方推文宣布Gemini Embedding 2正式GA，9000+次浏览

乍一看像是又一次例行产品更新。但仔细读完官方文档、开发者博客、社区讨论之后，你会发现——这次Google打的牌，根本不在"聊天能力"这张桌上。

它瞄准的是更底层的东西：检索基础设施。

"通用翻译器"——Google自己的比喻，比任何技术名词都好懂

Google AI官方账号几乎同一时间发了一条解释帖，把embedding模型比作"通用翻译器"（universal translator）：

"Think of an embedding model as a 'universal translator.' It takes text, images, video, and audio data and turns them into a long string of numbers, like a unique digital fingerprint."

「把embedding模型想象成一种'通用翻译器'。它把文本、图片、视频和音频数据转化成一长串数字，就像一个独特的数字指纹。」

Google放大招：文字、图片、视频、音频、PDF，全部压进同一个向量空间！Gemini Embedding 2正式GA

▲ Google AI 官方解释帖，近4万次浏览、656赞——一条科普帖能拿到这种数据，说明开发者确实在意这个方向

这个比喻精准地击中了核心：Gemini Embedding 2做的事情，就是给所有模态的数据发一张"统一身份证"。

文字有文字的指纹，图片有图片的指纹，视频有视频的指纹——但这些指纹全部在同一个坐标系里。这意味着你可以：

用一句话搜一段视频
拍一张图搜同款商品
拿PDF+图片+文本混在一起建索引
让AI agent在图文音视频里自己翻证据

以前要拆四五套管线才能勉强做到的事，现在一个API调用就搞定。

真正的变化：多模态从"模型能力"变成了"检索基建"

过去说"多模态"，大家想到的是什么？是大模型能看图、能听音频、能理解视频。但这些能力一直停留在"生成侧"——模型会回答问题，但你的检索系统依然是割裂的。

文本一套encoder，图片一套encoder，视频、音频再各有各的处理逻辑，最后靠额外对齐、重排、规则层硬拼起来。

Gemini Embedding 2这次最关键的一步，是把"理解能力"推到了召回层。

官方博客里有一句话特别值得细品：

"Beyond processing one modality at a time, this model natively understands interleaved input so you can pass multiple modalities of input (e.g., image + text) in a single request."

「它不只是一次处理一种模态——它原生理解交错混合输入，你可以在一个请求里传入多种模态的输入（比如图片+文本）。」

Google放大招：文字、图片、视频、音频、PDF，全部压进同一个向量空间！Gemini Embedding 2正式GA

▲ Gemini API Embeddings 官方文档页——代码示例、维度策略、多模态接入一应俱全

注意"interleaved input"这个词。它强调的重点在于：一个请求里就能理解混合输入，并压成一个统一向量。

这跟"模型能看图"完全是两码事。

硬核规格：8192 tokens、6张图、120秒视频、180秒音频

Google这次给出了非常详细的输入限制，说明这个能力已经在面向真实工程场景：

Google放大招：文字、图片、视频、音频、PDF，全部压进同一个向量空间！Gemini Embedding 2正式GA

默认输出维度3072，但支持通过`output_dimensionality`参数截断到更小维度。官方推荐三档：768 / 1536 / 3072。

背后用的是Matryoshka Representation Learning（MRL）——大白话说就是"套娃学习"：大向量的前缀本身就是一个有效的小向量。你不用每次都上满血3072维，768维可能就够用了，存储和检索成本直接砍掉一大块。

这组数字的意义，远比模型本身更实际——它让工程团队第一次能算清楚：视频知识库能不能做？语音片段要不要直接塞进召回？PDF需不需要预切页？

Google放大招：文字、图片、视频、音频、PDF，全部压进同一个向量空间！Gemini Embedding 2正式GA

▲ Google The Keyword 官方博客——由Google DeepMind的产品经理Min Choi和Distinguished Engineer Tom Duerig联合发布

三个案例，三个行业，全是真刀真枪的数字

Google这次没有只讲概念，开发者博客直接甩出了三个落地案例。

Harvey——法律检索：Recall@20精度提升3%

法律行业最怕的就是"召回看似对、引用实际错"。Harvey在法律场景benchmark上，换用Gemini Embedding 2后，Recall@20精度提升了3个百分点。别小看这3%——在法律场景，一个错误引用可能就是一场官司。

Supermemory——记忆型数据库：search Recall@1提升40%

Supermemory是做AI记忆和个人知识库的。集成后，search Recall@1直接提升了40%。这个数字太炸了——它意味着"你问一个问题，系统第一次返回的结果就是正确答案"的概率，提高了将近一半。

Nuuly——时尚电商视觉搜索：识别率从74%飙升到超过90%

这是最让普通人秒懂的案例。Nuuly做服饰租赁，需要把仓库里拍的衣服照片和商品目录匹配起来。用了Gemini Embedding 2之后，Match@20从60%提升到接近87%，整体识别率从74%飙到超过90%。

拍一张衣服照片，系统就能在库存里精准找到"它是谁"——这才是"统一向量空间"四个字的真实含义。

Google放大招：文字、图片、视频、音频、PDF，全部压进同一个向量空间！Gemini Embedding 2正式GA

▲ Google Developers Blog——详细展示了agentic multimodal RAG、visual search等应用场景和工程规格

它在给谁铺路？两个关键词：Agentic Retrieval

seed tweet里专门用了`agentic retrieval`这个词。这几个字绝对经过反复斟酌。

因为AI agent要真正工作起来，光"会回答"远远不够。它需要：

自己找资料
跨文档比对
在图片、视频、PDF、语音里翻证据
把证据拼成可执行的决策

Gemini Embedding 2补的，就是agent的眼睛和记忆索引层。

以前agent只能在纯文本里翻找，现在它可以"看"图片、"听"音频、"读"PDF，然后在同一个语义空间里做cross-modal检索。

Google把embedding和Gemini Enterprise Agent Platform绑在一起推，意图已经很明显：它想让开发者用一套检索底座，撑起整个agentic工作流。

社区反应：兴奋和警惕同时拉满

开发者社区的反应很有意思——既兴奋又警觉。

Max Calkin直接说：没有Gemini Embedding 2，他的产品beacn.space根本做不出来。这是builder视角最直接的反馈——好不好用，看能不能立刻长出新功能。

Google放大招：文字、图片、视频、音频、PDF，全部压进同一个向量空间！Gemini Embedding 2正式GA

▲ Max Calkin：没有Gemini Embedding 2，beacn.space就不可能实现

AI Security Gateway则从安全角度泼了一盆冷水：多模态embedding意味着图片、视频和音频现在都会通过你的embedding API。面部信息、文档、带有名字的音频——PII暴露面显著扩大，远超纯文本RAG的范围。

Google放大招：文字、图片、视频、音频、PDF，全部压进同一个向量空间！Gemini Embedding 2正式GA

▲ AI Security Gateway：多模态embedding让PII暴露面显著扩大

Vanar则点出了另一个关键问题：这确实是跨模态统一表示的重要一步，但接下来真正要看的，是在现实世界的噪声和规模下，检索准确率到底站不站得住。

Google放大招：文字、图片、视频、音频、PDF，全部压进同一个向量空间！Gemini Embedding 2正式GA

▲ Vanar：关键看真实世界噪声和规模下的检索准确性

Hacker News：有人说"colossal"，有人直接问开源替代

HN上的讨论更加直白。

用户jeanloolz说："This is colossal."因为几乎所有常见格式都能做embedding了。但他也补了一句——context window跟纯文本比还是偏小。

另一位用户Grimblewald立刻拿它跟Qwen的开源多模态embedding对比，质疑API-only模式下开发者根本没有控制权：

"Qwen gives great embeddings out of the gate while also being steerable... Not seeing the value add here."

「Qwen开箱就能给出很好的embedding，还能自己控制方向……看不出这边的附加价值在哪。」

还有人第一反应就是问pricing——对很多工程团队来说，embedding永远看的不只是模型质量，还有能不能大规模索引、长期跑得起。

Google放大招：文字、图片、视频、音频、PDF，全部压进同一个向量空间！Gemini Embedding 2正式GA

▲ Hacker News上的讨论——36个赞，5条评论，兴奋与质疑并存

别忽视的暗面：迁移成本和治理风险

统一向量空间听起来很美，但有两个现实问题不能回避：

第一，切换embedding模型意味着整库重建索引。

这对任何已经在跑向量检索的团队来说都是大工程。即使新模型效果更好，也不等于能"无痛替换"。shadow test、A/B测试、逐步迁移，一个都不能少。

第二，多模态进来后，数据治理的复杂度直接翻倍。

以前只处理文本，团队主要担心文本泄露。现在图像里的脸、音频里的名字、视频里的场景、PDF里的敏感版式，全部进入了同一条处理链。

合规团队如果还在用纯文本时代的审计逻辑，迟早要出事。

写在最后：检索底座的战争，才刚刚开始

这次Gemini Embedding 2的GA，表面上是一次产品更新，但更深层的信号是：Google正在把多模态从"演示能力"推向"开发者基础设施"。

以前多模态是demo里的亮点，现在它开始变成检索栈里的默认层。

当图、文、音、视频、PDF终于能在同一个向量空间里被统一检索，AI产品的天花板就不再被模态边界卡住了。

当然，开源社区不会坐视。Qwen的多模态embedding已经在路上，更多开源替代会接踵而至。API-only还是可自托管，闭源生态还是开源生态——这场关于AI检索底座归属权的战争，才刚刚打响。

文章来自于微信公众号 "桂宫说事"，作者 "桂宫说事"

关键词: AI新闻 , Gemini Embedding 2 , 谷歌向量模型 , 谷歌AI

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI