Google放大招:文字、图片、视频、音频、PDF,全部压进同一个向量空间!Gemini Embedding 2正式GA

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Google放大招:文字、图片、视频、音频、PDF,全部压进同一个向量空间!Gemini Embedding 2正式GA
9933点击    2026-05-02 15:05

导读


Google悄悄干了一件大事——Gemini Embedding 2正式进入GA阶段,成为Gemini API中第一个原生多模态embedding模型。它能把文本、图片、视频、音频、PDF文档全部映射进同一个统一向量空间,支持100多种语言。已有法律检索公司Harvey、记忆型数据库Supermemory、时尚电商Nuuly跑出实打实的指标提升。开发者社区炸了,但质疑声也同步跟上。


一条推文,撕开了AI检索的新底牌


5月1日,Google for Developers官方账号发了一条看起来不太起眼的推文:


"Now that Gemini Embedding 2 is GA, let's explore what the model unlocks — from agentic multimodal RAG to visual search — as it maps text, images, video, audio, and documents into a unified embedding space."


「Gemini Embedding 2已经GA了,来看看它解锁了什么——从agentic多模态RAG到视觉搜索——它把文本、图片、视频、音频和文档映射进一个统一的embedding空间。」


Google放大招:文字、图片、视频、音频、PDF,全部压进同一个向量空间!Gemini Embedding 2正式GA


Google放大招:文字、图片、视频、音频、PDF,全部压进同一个向量空间!Gemini Embedding 2正式GA


▲ Google for Developers 官方推文宣布Gemini Embedding 2正式GA,9000+次浏览


乍一看像是又一次例行产品更新。但仔细读完官方文档、开发者博客、社区讨论之后,你会发现——这次Google打的牌,根本不在"聊天能力"这张桌上。


它瞄准的是更底层的东西:检索基础设施。


"通用翻译器"——Google自己的比喻,比任何技术名词都好懂


Google AI官方账号几乎同一时间发了一条解释帖,把embedding模型比作"通用翻译器"(universal translator)


"Think of an embedding model as a 'universal translator.' It takes text, images, video, and audio data and turns them into a long string of numbers, like a unique digital fingerprint."


「把embedding模型想象成一种'通用翻译器'。它把文本、图片、视频和音频数据转化成一长串数字,就像一个独特的数字指纹。」


Google放大招:文字、图片、视频、音频、PDF,全部压进同一个向量空间!Gemini Embedding 2正式GA


Google放大招:文字、图片、视频、音频、PDF,全部压进同一个向量空间!Gemini Embedding 2正式GA


▲ Google AI 官方解释帖,近4万次浏览、656赞——一条科普帖能拿到这种数据,说明开发者确实在意这个方向


这个比喻精准地击中了核心:Gemini Embedding 2做的事情,就是给所有模态的数据发一张"统一身份证"。


文字有文字的指纹,图片有图片的指纹,视频有视频的指纹——但这些指纹全部在同一个坐标系里。这意味着你可以:


  • 用一句话搜一段视频
  • 拍一张图搜同款商品
  • 拿PDF+图片+文本混在一起建索引
  • 让AI agent在图文音视频里自己翻证据


以前要拆四五套管线才能勉强做到的事,现在一个API调用就搞定。


真正的变化:多模态从"模型能力"变成了"检索基建"


过去说"多模态",大家想到的是什么?是大模型能看图、能听音频、能理解视频。但这些能力一直停留在"生成侧"——模型会回答问题,但你的检索系统依然是割裂的。


文本一套encoder,图片一套encoder,视频、音频再各有各的处理逻辑,最后靠额外对齐、重排、规则层硬拼起来。


Gemini Embedding 2这次最关键的一步,是把"理解能力"推到了召回层


官方博客里有一句话特别值得细品:


"Beyond processing one modality at a time, this model natively understands interleaved input so you can pass multiple modalities of input (e.g., image + text) in a single request."


「它不只是一次处理一种模态——它原生理解交错混合输入,你可以在一个请求里传入多种模态的输入(比如图片+文本)。」


Google放大招:文字、图片、视频、音频、PDF,全部压进同一个向量空间!Gemini Embedding 2正式GA


▲ Gemini API Embeddings 官方文档页——代码示例、维度策略、多模态接入一应俱全


注意"interleaved input"这个词。它强调的重点在于:一个请求里就能理解混合输入,并压成一个统一向量。


这跟"模型能看图"完全是两码事。


硬核规格:8192 tokens、6张图、120秒视频、180秒音频


Google这次给出了非常详细的输入限制,说明这个能力已经在面向真实工程场景:


Google放大招:文字、图片、视频、音频、PDF,全部压进同一个向量空间!Gemini Embedding 2正式GA


默认输出维度3072,但支持通过`output_dimensionality`参数截断到更小维度。官方推荐三档:768 / 1536 / 3072


背后用的是Matryoshka Representation Learning(MRL)——大白话说就是"套娃学习":大向量的前缀本身就是一个有效的小向量。你不用每次都上满血3072维,768维可能就够用了,存储和检索成本直接砍掉一大块。


这组数字的意义,远比模型本身更实际——它让工程团队第一次能算清楚:视频知识库能不能做?语音片段要不要直接塞进召回?PDF需不需要预切页?


Google放大招:文字、图片、视频、音频、PDF,全部压进同一个向量空间!Gemini Embedding 2正式GA


▲ Google The Keyword 官方博客——由Google DeepMind的产品经理Min Choi和Distinguished Engineer Tom Duerig联合发布


三个案例,三个行业,全是真刀真枪的数字


Google这次没有只讲概念,开发者博客直接甩出了三个落地案例。


Harvey——法律检索:Recall@20精度提升3%


法律行业最怕的就是"召回看似对、引用实际错"。Harvey在法律场景benchmark上,换用Gemini Embedding 2后,Recall@20精度提升了3个百分点。别小看这3%——在法律场景,一个错误引用可能就是一场官司。


Supermemory——记忆型数据库:search Recall@1提升40%


Supermemory是做AI记忆和个人知识库的。集成后,search Recall@1直接提升了40%。这个数字太炸了——它意味着"你问一个问题,系统第一次返回的结果就是正确答案"的概率,提高了将近一半。


Nuuly——时尚电商视觉搜索:识别率从74%飙升到超过90%


这是最让普通人秒懂的案例。Nuuly做服饰租赁,需要把仓库里拍的衣服照片和商品目录匹配起来。用了Gemini Embedding 2之后,Match@20从60%提升到接近87%,整体识别率从74%飙到超过90%


拍一张衣服照片,系统就能在库存里精准找到"它是谁"——这才是"统一向量空间"四个字的真实含义。


Google放大招:文字、图片、视频、音频、PDF,全部压进同一个向量空间!Gemini Embedding 2正式GA


▲ Google Developers Blog——详细展示了agentic multimodal RAG、visual search等应用场景和工程规格


它在给谁铺路?两个关键词:Agentic Retrieval


seed tweet里专门用了`agentic retrieval`这个词。这几个字绝对经过反复斟酌。


因为AI agent要真正工作起来,光"会回答"远远不够。它需要:


  • 自己找资料
  • 跨文档比对
  • 在图片、视频、PDF、语音里翻证据
  • 把证据拼成可执行的决策


Gemini Embedding 2补的,就是agent的眼睛和记忆索引层


以前agent只能在纯文本里翻找,现在它可以"看"图片、"听"音频、"读"PDF,然后在同一个语义空间里做cross-modal检索。


Google把embedding和Gemini Enterprise Agent Platform绑在一起推,意图已经很明显:它想让开发者用一套检索底座,撑起整个agentic工作流。


社区反应:兴奋和警惕同时拉满


开发者社区的反应很有意思——既兴奋又警觉。


Max Calkin直接说:没有Gemini Embedding 2,他的产品beacn.space根本做不出来。这是builder视角最直接的反馈——好不好用,看能不能立刻长出新功能。


Google放大招:文字、图片、视频、音频、PDF,全部压进同一个向量空间!Gemini Embedding 2正式GA


▲ Max Calkin:没有Gemini Embedding 2,beacn.space就不可能实现


AI Security Gateway则从安全角度泼了一盆冷水:多模态embedding意味着图片、视频和音频现在都会通过你的embedding API。面部信息、文档、带有名字的音频——PII暴露面显著扩大,远超纯文本RAG的范围。


Google放大招:文字、图片、视频、音频、PDF,全部压进同一个向量空间!Gemini Embedding 2正式GA


▲ AI Security Gateway:多模态embedding让PII暴露面显著扩大


Vanar则点出了另一个关键问题:这确实是跨模态统一表示的重要一步,但接下来真正要看的,是在现实世界的噪声和规模下,检索准确率到底站不站得住


Google放大招:文字、图片、视频、音频、PDF,全部压进同一个向量空间!Gemini Embedding 2正式GA


▲ Vanar:关键看真实世界噪声和规模下的检索准确性


Hacker News:有人说"colossal",有人直接问开源替代


HN上的讨论更加直白。


用户jeanloolz说:"This is colossal."因为几乎所有常见格式都能做embedding了。但他也补了一句——context window跟纯文本比还是偏小。


另一位用户Grimblewald立刻拿它跟Qwen的开源多模态embedding对比,质疑API-only模式下开发者根本没有控制权:


"Qwen gives great embeddings out of the gate while also being steerable... Not seeing the value add here."


「Qwen开箱就能给出很好的embedding,还能自己控制方向……看不出这边的附加价值在哪。」


还有人第一反应就是问pricing——对很多工程团队来说,embedding永远看的不只是模型质量,还有能不能大规模索引、长期跑得起


Google放大招:文字、图片、视频、音频、PDF,全部压进同一个向量空间!Gemini Embedding 2正式GA


▲ Hacker News上的讨论——36个赞,5条评论,兴奋与质疑并存


别忽视的暗面:迁移成本和治理风险


统一向量空间听起来很美,但有两个现实问题不能回避:


第一,切换embedding模型意味着整库重建索引。


这对任何已经在跑向量检索的团队来说都是大工程。即使新模型效果更好,也不等于能"无痛替换"。shadow test、A/B测试、逐步迁移,一个都不能少。


第二,多模态进来后,数据治理的复杂度直接翻倍。


以前只处理文本,团队主要担心文本泄露。现在图像里的脸、音频里的名字、视频里的场景、PDF里的敏感版式,全部进入了同一条处理链


合规团队如果还在用纯文本时代的审计逻辑,迟早要出事。


写在最后:检索底座的战争,才刚刚开始


这次Gemini Embedding 2的GA,表面上是一次产品更新,但更深层的信号是:Google正在把多模态从"演示能力"推向"开发者基础设施"。


以前多模态是demo里的亮点,现在它开始变成检索栈里的默认层。


当图、文、音、视频、PDF终于能在同一个向量空间里被统一检索,AI产品的天花板就不再被模态边界卡住了。


当然,开源社区不会坐视。Qwen的多模态embedding已经在路上,更多开源替代会接踵而至。API-only还是可自托管,闭源生态还是开源生态——这场关于AI检索底座归属权的战争,才刚刚打响。


文章来自于微信公众号 "桂宫说事",作者 "桂宫说事"

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI