
jina-embeddings-v5-text岁在丙午,开年即战。Jina AI 的五代目向量模型春节期间正式发布。1B 参数内世界第一,全面刷新向量模型的性能天花板!
jina-embeddings-v5-text-small(677M 参数):MMTEB 67.0 排名第8,MTEB 英文 71.7,全面超越流行的 qwen3-embedding-0.6bjina-embeddings-v5-text-nano(239M 参数):MMTEB 65.5 排名第11,MTEB 英文 71.0
2026年2月21日的 MMTEB 多语言排行榜 消息来源:Hugging Face
资源链接:
HF 🤗 https://huggingface.co/collections/jinaai/jina-embeddings-v5-text
魔搭 🧙 https://modelscope.cn/organization/jinaai
技术报告 📖 https://arxiv.org/abs/2602.15547
API 💻
https://jina.ai/embeddings/
Small 版本支持 32K token 上下文(nano 为 8K)、4 个任务专用 LoRA 适配器(检索、文本匹配、分类、聚类),以及从 1024 到 32 维的 Matryoshka 维度截断。
Nano 版本仅 239M 参数,检索质量却能匹配参数量两倍于它的同类模型。
和前几代模型对比,v5-text-small 在检索任务上与 jina-embeddings-v4(3.8B)持平,体积只有后者的 1/5.6;在所有任务上全面超越 jina-embeddings-v3(572M),参数量相当。


MMTEB 多语言评测
v5-text-small 在 MMTEB 多语言评测上取得 67.0(131 个任务、9 种任务类型的平均分),超出同量级第二名 Qwen3-0.6B(指令版,64.3)2.7 分。nano 模型以 239M 参数取得 65.5,超越了多个参数量两倍于它的模型。
small在中文评测上得分 73.7,优于 v3 和 Gemma-300M。Qwen3-0.6B 在中文单项上更强(76.3),这不意外,Qwen3 底座本身有大量中文预训练数据。但 v5-text-small 胜在均衡,中文以外语言覆盖和任务泛化能力更广。

MTEB 英文
在 MTEB 英文评测里,v5-text-small以 71.7 领跑所有 1B 以下多语言模型(41 个任务、7 种任务类型平均),其后是 KaLM-mini-v2.5(71.3)和 v5-text-nano(71.0)。239M 的 nano 与 494M 的 KaLM 表现相当,但参数量不到后者一半。nano 在检索(58.8)和重排序(49.2)上超越了所有 500M 以下的竞品。

检索任务
v5-text-small 在五个检索 benchmark(MTEB 多语言、MTEB 英文、RTEB、BEIR、LongEmbed)的任务级平均分达到 63.28,在所有 4B 以下的模型中最高,与 jina-embeddings-v4(3.8B,63.62)几乎持平,但体积仅为后者的 1/5.6。
其中,RTEB(面向企业检索场景的 benchmark)得分 66.84,BEIR(大规模英文零样本评测)得分 56.67,均超越了同量级的 Qwen3-0.6B。500M 以下模型中,nano(61.43)超越了 Gemma-300M(59.66)和 KaLM-mini-v2.5(56.58),在 BEIR 的分数更是该量级最高。

v5-text 采用 decoder-only 骨干网络,通过 last-token pooling(取序列末尾 EOS token 的隐藏状态)生成向量,取代了传统的 mean pooling。和 Qwen3-Embedding、EmbeddingGemma 等近期模型的选择一致,也更契合 decoder-only 架构的特性。
四个轻量级 LoRA 适配器注入每一层 Transformer,分别对应检索、文本匹配、分类和聚类,用户在推理时按需切换。这一设计延续自 jina-embeddings-v3,用独立适配器替代指令微调,化解多任务间的优化冲突。
对于非对称检索任务,通过文本前缀区分输入角色:query 使用 "Query:" 前缀,document 使用 "Document:" 前缀。文本匹配、分类、聚类任务统一使用 "Document:" 前缀。
此外,模型支持 Matryoshka Representation Learning(MRL),可对向量维度进行截断,从 1024 维到 32 维,以满足不同效率需求。
上下文长度方面,small 支持 32K tokens,nano 支持 8K tokens。前者相较 v3 的 8K 扩展了 4 倍。
生产环境首选的接入方式是由 Elastic Inference Service(EIS)提供的推理服务,内置弹性伸缩,在 Elastic 部署中直接生成向量,无需自行管理推理基础设施。
PUT _inference/text_embedding/jina-v5{ "service": "elastic", "service_settings": { "model_id": "jina-embeddings-v5-text-small" }}
详见 EIS 文档:https://www.elastic.co/docs/explore-analyze/elastic-inference/eis
Jina 官方托管 API,按 token 计价,开箱支持任务选择、维度截断和批量处理,无需 GPU。
curl https://api.jina.ai/v1/embeddings \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_KEY" \ -d '{
"model": "jina-embeddings-v5-text-small",
"task": "retrieval.query",
"dimensions": 1024,
"input": ["What is knowledge distillation?"]
}'
请前往 jina.ai/embeddings 获取 API Key。
本地部署,完整控制推理流程。模型权重已在 Hugging Face 公开,原生兼容 sentence-transformers。
from sentence_transformers import SentenceTransformerimport torchmodel = SentenceTransformer( "jinaai/jina-embeddings-v5-text-small-retrieval", model_kwargs={"dtype": torch.bfloat16},)query_emb = model.encode("What is knowledge distillation?", prompt_name="query")doc_embs = model.encode(["Knowledge distillation transfers...", "Venus is..."], prompt_name="document")similarity = model.similarity(query_emb, doc_embs)
适合高吞吐生产场景。vLLM 原生支持 v5-text 的 last-token pooling。
from vllm import LLMfrom vllm.config.pooler import PoolerConfigmodel = LLM( model="jinaai/jina-embeddings-v5-text-small-retrieval", dtype="float16", runner="pooling", pooler_config=PoolerConfig(seq_pooling_type="LAST", normalize=True),)outputs = model.encode(["Query: climate change impacts"], pooling_task="embed")
面向 llama.cpp 和 MLX 等本地推理场景,每个任务适配器的 LoRA 权重已预先合并到基座模型中,生成独立的完整权重文件。每个任务(检索、文本匹配、分类、聚类)各对应一个独立仓库,推理时无需额外加载 LoRA,开箱即用。
在 CPU 或边缘设备上运行量化模型,我们为每个模型提供 14 种 GGUF 量化方案,从 F16 到 IQ1_S,覆盖不同精度需求。
llama-server -hf jinaai/jina-embeddings-v5-text-small-retrieval-GGUF:Q4_K_M \ --embedding --pooling last -ub 32768
面向 Apple Silicon 的原生推理。所有任务适配器均提供全精度、4-bit 和 8-bit 量化版本。
import mlx.core as mxfrom tokenizers import Tokenizerfrom model import JinaEmbeddingModelimport jsonwith open("config.json") as f: config = json.load(f)model = JinaEmbeddingModel(config)weights = mx.load("model-4bit.safetensors")model.load_weights(list(weights.items()))tokenizer = Tokenizer.from_file("tokenizer.json")texts = ["Query: What is machine learning?"]embeddings = model.encode(texts, tokenizer)
从 Hugging Face 下载:jinaai/jina-embeddings-v5-text-small-retrieval-mlx(文本匹配、分类、聚类适配器同样可用)。
两个模型均从 Qwen3-Embedding-4B(一个参数量大得多的成熟向量模型)蒸馏而来。small 版本以 Qwen3-0.6B-Base 为骨干,nano 以 EuroBERT-210m 为骨干。训练过程结合了两路互补的监督信号:
第一阶段:向量蒸馏(Embedding Distillation)
核心目标是让小模型(学生)无需指令模板,就能逼近 4B 教师模型的向量空间。
蒸馏阶段的训练数据涵盖超过 300 个数据集、30+ 种语言 的文本对。这一策略在标注数据稀缺的语言和任务上尤其有效,教师模型提供的监督信号弥补了标注数据的不足。
针对 v5-text-small,我们还进行了额外的 长上下文训练:使用专门构造的长文本数据集,降低训练时的 RoPE θ 值并扩大最大序列长度,获得更好的长文本外推能力。
第二阶段:任务专用对比学习(Task-specific Contrastive Loss)
蒸馏完成后冻结骨干权重,为四个任务类别分别训练 LoRA 适配器,每个适配器使用不同的损失函数和训练数据。
检索适配器在标注的 query-document 对上使用 InfoNCE loss,配合 hard negative mining 和 in-batch negatives,同时保留蒸馏损失,防止适配器训练偏离骨干已建立的向量空间。
消融实验表明,两种方法的组合稳定优于任一单独使用:MTEB 英文检索上,组合方案达到 60.1 nDCG@10,纯蒸馏 58.6,纯对比学习仅 54.3(同一骨干网络)。
训练中还引入了 GOR(Generalized Orthogonal Regularization,广义正交正则化),让向量在各维度上分布更均匀。GOR 对 benchmark 分数提升有限,其核心价值在于:二值量化几乎无损,对于内存受限的部署环境下,这是个关键特性。
在训练过程中,我们还有几个重要发现:
2026年,向量模型正在发生巨大的角色转型。
过去,向量模型作为独立的召回单元。今天,大模型在 Agentic 工作流中把向量模型当做小工具调用从而完成检索、记忆管理和分类。OpenClaw、OpenViking 等项目把向量模型当作 Agent 上下文管理的核心记忆层。向量模型正在从搜索引擎的固定后端变成上下文窗口里的灵活小工具:去重、过滤、压缩 token,一切只为更好的 Context。
在这种范式下,单次调用的推理成本和延迟跟 Benchmark 分数一样重要。端侧检索、页内搜索、边缘部署,都要求模型塞进严苛的内存预算。Matryoshka 维度让一个模型同时覆盖高精度检索和超快近似搜索,无需重新训练;配合 GGUF 量化压到 1–2 bit,生产环境下向量服务的实际内存开销直降一个数量级。
v5-text 就是为这个趋势而生的:够小、够快、够准。
我们正在开发 jina-embeddings-v5-multimodal,将同一架构扩展至视觉与跨模态检索。早期实验验证,在不损失文本性能的前提下对齐视觉编码器完全可行。敬请期待!
文章来自于微信公众号 “Jina AI”,作者: “Jina AI”
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0