JinaVDR: 一个图文混排文档搜索任务的基准集

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
JinaVDR: 一个图文混排文档搜索任务的基准集
8548点击    2025-08-07 14:43

大部分现有的文档检索基准(如MTEB)只考虑了纯文本。而一旦文档的关键信息蕴含在图表、截图、扫描件和手写标记中,这些基准就无能为力。为了更好的开发下一代向量模型和重排器,我们首先需要一个能评测模型在视觉复杂文档能力的基准集。


为了填补这一空白,JinaVDR(Visual Document Retrieval,视觉文档检索)应运而生。


🔗: https://github.com/jina-ai/jina-vdr/


🤗: https://huggingface.co/collections/jinaai/jinavdr-visual-document-retrieval-684831c022c53b21c313b449


JinaVDR 的核心,是一个专为处理视觉复杂文档任务设计的评测数据集。我们收集了大量布局复杂的真实文档,它们来自多种语言,很多内部混合了图表、表格、文字和图像,文件类型也覆盖了从数字化的网页、屏幕截图、PDF 再到物理的扫描件。然后,为这些文档一一匹配了有针对性的文本查询。通过这套“查询-文档”对,就能量化地评估一个模型在处理复杂视觉信息时的检索性能。


JinaVDR: 一个图文混排文档搜索任务的基准集


JinaVDR: 一个图文混排文档搜索任务的基准集


JinaVDR 统计信息,展示了查询/文档的语言、领域和文档格式


构建 JinaVDR 的目标非常明确:尽可能地模拟真实世界的检索任务。 为此,我们重点解决了三个问题:


  • 语言多样性:现实中的数据远不止英文,所以数据集里引入了超过二十种其他语言,来确保更广的语言覆盖。


  • 跨领域数据:为了涵盖各类不同的专业场景,数据集收录了历史档案、软件文档、医疗记录、法律文书和科学论文等。


  • 格式全面性:考虑到文档格式五花八门,我们把从网页、PDF 到扫描件、演示文稿和独立图像的格式都包含了进来。


项目里一个关键设计是:在许多数据集中,特意混合了不同的语言和格式。这样做可以创造出更贴近现实的测试条件,真正考验模型在实际部署时处理复杂情况的能力。


JinaVDR 是如何构建的


为了确保 JinaVDR 的数据足够多样、任务足够真实,我们综合运用了四种方法来构建这个基准。最终的评估框架覆盖了 20 种语言、95 项具体任务,其中的文档形式涵盖了图表、地图、扫描件、Markdown 文件和复杂表格。


在评测方式上,设计了两种查询方式:视觉问答(如,“1855年,巴利亚多利德法院驳回了多少起民事诉讼?”)和 关键词查询(如,“LED 市场在不同地区的增长情况”)。将两者结合,可以更准确地评估模型处理真实文档的能力。


具体的构建方法如下:


1. 改造现有数据集


通过设计基于规则的查询模板,将 MPMQA 这类 OCR 数据集转化为检索任务。同时,也调整了部分问答数据集的格式,使其能适配于检索场景。


JinaVDR: 一个图文混排文档搜索任务的基准集


JinaVDR 的 MPMQA 文档和查询示例


2. 人工标注高质量数据


对于一些现有的 PDF 数据集(如 StanfordSlides、TextbookQA 等),我们投入了大量人力进行手动标注,逐一创建了高质量的“查询-文档”配对。这样做虽然成本高,但能保证评测的精准性。


JinaVDR: 一个图文混排文档搜索任务的基准集


JinaVDR 的 StanfordSlides 文档和查询示例


3. 用模型生成合成数据


为了扩大数据规模和多样性,利用 Qwen2-VL-7B-Instruct 模型,为来自 Europeana 等平台的现有文档,批量生成上下文相关的查询。此外,还将纯文本的表格数据渲染成图片,再通过模板生成查询,AirBnBRetrieval 任务就是用这种方法构建的。


JinaVDR: 一个图文混排文档搜索任务的基准集


JinaVDR 的 Europeana 文档和查询示例,包括英文查询翻译以供参考


4. 利用现成的网络爬取数据


有些数据集,比如 OWIDRetrieval,天然就包含了文章与图表的配对。我们直接利用这种结构,从文章中抽取片段做查询,把对应的图表作为检索目标。


JinaVDR: 一个图文混排文档搜索任务的基准集


JinaVDR 的 OWIDRetrieval 文档和查询示例


综合运用上述方法,最终确保了 JinaVDR 在文档类型、语言和检索场景上都达到了理想的覆盖广度。


现有基准的局限


在开发 JinaVDR 之前,我们调研了市面上的主流基准,发现它们在评测视觉复杂文档时都存在一些问题。


像 MTEB(大规模文本向量基准)这类框架,在评测纯文本检索任务时表现出色,涵盖了跨领域、跨语言的数据集。但如果文档的关键信息存在于视觉布局或图表中,MTEB 就无法胜任了。


像 ViDoRe 系列是专门为视觉文档设计的基准,整合了 5 个纯英文数据集,内容上混合了学术资料与合成数据。但 ViDoRe v1 主要面向适合 OCR 的英文单页文档,领域也局限在科学论文和医疗保健等方面。它的查询方式也比较初级,采用的是抽取式查询,即搜索词通常能直接在目标文档里找到。


JinaVDR: 一个图文混排文档搜索任务的基准集


ViDoRe v1 基准数据集中的样本


当 ColPali 这类模型在 v1 上分数已经到 90% nDCG@5后,说明这个基准的评测“天花板”已经出现。后续的 ViDoRe v2 虽然做了一些改进,支持了更长、可跨文档的查询和无明确上下文的“盲”查询,也将语言扩展到了法语、德语和西班牙语。但在语言多样性和领域覆盖上,仍然很有限。


JinaVDR: 一个图文混排文档搜索任务的基准集


ViDoRe v2 基准数据集的样本


MIEB (大规模图像向量基准)专注于视觉向量模型,涵盖了 130 多项任务,其中一些已经超出了检索的范畴。但它的评测对象,主要是缺乏文本内容的纯图像,而不是信息丰富的视觉文档。 它能很好地测试模型的视觉理解能力,但无法评估模型结合视觉布局和文本内容进行检索的综合能力。


JinaVDR: 一个图文混排文档搜索任务的基准集


MIEB 基准测试的样本


正是看到了这些现有基准的局限,我们才着手构建 JinaVDR。希望在这些工作的基础上更进一步,将评测范围扩展到那些包含复杂布局(如图表、表格、文本与图像混合)的多语言视觉文档,同时引入更贴近真实世界的查询与问答。


在 JinaVDR 上评估向量模型


我们用 JinaVDR 跑了一系列主流的向量模型,得到一个很明确的结论:许多前沿模型,在处理这些多样化的视觉任务时,表现都并不理想。


作为参照,也测试了传统的 OCR + BM25 方法作为 baseline。不出所料,表现更差,尤其是在处理非英语和结构化文档时。这说明 JinaVDR 提出的这些任务,确实有相当的难度,传统方法难以应对。


jina-embeddings-v4 是个明显的例外。它的多模态方法,相比依赖 OCR 的传统流程或其他早期模型,能更有效地处理这种复杂的、多语言的文档检索。


您可以使用我们的开源代码 https://github.com/jina-ai/jina-vdr/ 自行运行基准测试。

它的性能优势,主要来自其多向量(multivector)功能。


传统的单向量(single-vector)方法,必须把整页的所有信息——包括文字、图表、布局——都强行压缩进一个向量里。这个过程不可避免地会丢失大量细节。


而多向量方法则不同,它可以为文档中的不同部分(例如,一个文本块、一张表格)生成各自独立的向量。这样就能完整地保留文档的精细信息,检索时自然也就能做到更精确的匹配。


JinaVDR: 一个图文混排文档搜索任务的基准集


模型在 JinaVDR 基准测试中的性能,在所有任务中取平均值%


JinaVDR: 一个图文混排文档搜索任务的基准集


MTEB 集成


MTEB 是社区公认的评测基准框架。为了方便大家使用,我们把 JinaVDR 直接集成到了 MTEB 框架里。这样,大家就可以用熟悉的脚本和工具,在我们的基准上快速测试自己的模型。


🔗:https://github.com/embeddings-benchmark/mteb/pull/2942


这个集成过程需要把数据转换为 BEIR 格式,这也带来一个权衡:MTEB 版本的数据不包含预先提取的 OCR 结果。


这意味着,像 BM25 这类依赖纯文本的传统方法,无法在 MTEB 框架内直接运行。但这未必是件坏事。它把评测的重点强制拉回到了我们最初的目标上:评估模型对视觉文档本身的理解能力,而不是让测试退回到依赖纯文本的检索路径。


局限性


要构建一个来源广泛又全面的基准,同时还要保证它能实际运行、评估有效,就必须对数据进行一系列审慎的预处理。我们想在这里坦诚地说明这些限制:


1. 数据集规模


处理高分辨率的视觉文档,计算开销非常大。如果保留原始数据集的全部规模,对大多数用户来说运行一次评测会非常困难。


因此,我们对每个数据集都进行了子采样,将其规模控制在最多 1,000 个样本。这是一个在评测可用性和任务覆盖广度之间做出的明确取舍。


2. 数据质量控制


真实世界的数据是杂乱的,比如扫描文档的图像质量差,这虽然能反映真实场景,却也给控制合成数据的质量带来了麻烦。我们花了很多精力去做清理和过滤,具体地:


  • 处理重复项:先跑了一致性过滤,删除了大型文档集里常见的重复数据。


  • 过滤低质查询:再用大模型筛掉了一批没有信息量的查询,比如像 “图表里有什么?” 这种过于宽泛的问题,它们对评测模型性能没有实际帮助。


  • 人工校准合成数据:但即使尝试了各种提示词工程策略,模型生成的合成查询在多样性上还是有局限。因此,我们也投入了不少人力进行最后一轮的人工筛选和管理,来确保评测场景的有效性。


结论


JinaVDR 的出发点很简单:行业里对模型的评测能力,已经跟不上模型本身的发展速度了。尤其是在视觉文档检索这个方向,传统的纯文本基准,已经无法有效评估一个现代模型处理复杂布局、图表和多语言混合文档的能力。


JinaVDR 正是为解决这个问题迈出的第一步。通过提供一个覆盖多种语言、领域和复杂布局的评测集,希望能为社区提供一个更贴近真实应用场景的“靶场”,让模型的优劣能被更准确地衡量。


未来的评测基准,必须直面真实世界的复杂性,而不是停留在实验室的理想化环境里。从法律研究到医疗诊断,这些领域的应用不会给我们一个干净的数据集,它们只会给我们一堆混乱、多语言、视觉复杂的文档。评测工具也必须跟上这个现实。


JinaVDR 只是一个开始。我们最终的目标,是推动和帮助社区一起,构建出能够真正理解并处理这些复杂文档的检索系统。



文章来自于微信公众号“Jina AI”

关键词: AI , 模型训练 , JinaVDR , AI基准集
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0