AI读不懂文档结构？计算所重构Agentic RAG文档推理能力

9136点击 2026-03-16 14:26

DeepRead让AI像人一样阅读文档：利用OCR识别章节结构，先精准定位相关段落，再完整读取上下文，避免碎片化检索。实验显示，其长文档问答准确率提升17%，能自动跳过冗余信息，精准提取财报、论文等复杂内容，无需额外知识图谱，轻量高效。

大语言模型的工具使用能力正推动RAG从静态的一次性检索，向自主、多轮的证据获取进化，Agentic RAG已成为解决复杂问答任务的核心方向。

但现有主流Agentic Search框架普遍存在一个关键痛点——结构盲：它们将长文档视为无差别的扁平文本块，忽略了文档原生的层级组织（如章节、段落）和顺序逻辑，导致检索碎片化、证据遗漏、冗余操作等问题频发。

比如说，人类查询「ACL论文投稿要求」时，会先翻阅目录找到「投稿指南」章节，再逐段精读关键信息。

但传统Agentic Search（如Search-o1）却只能通过不断给出新的query反复检索，可能遗漏「页码限制」「格式要求」等未被关键词覆盖的内容，还会重复获取已浏览过的片段。

AI读不懂文档结构？计算所重构Agentic RAG文档推理能力

这种「结构盲」带来三大问题：

证据碎片化：将文档拆分为固定大小的文本块，破坏语义连贯性，迫使智能体拼接零散片段；
检索冗余：缺乏全局结构认知，反复检索同类信息，浪费计算资源；
信息遗漏：依赖关键词匹配，无法捕获章节内隐含的相关信息。

而现代OCR技术已能精准提取文档的层级结构和阅读顺序，这为解决「结构盲」提供了基础——让智能体学会利用这些原生结构，而非忽视它们。

中国科学院计算技术研究所团队提出的DeepRead，核心创新是将文档结构转化为智能体可理解、可操作的坐标系统，通过两大工具协同实现类人推理，整体框架参考下图。

AI读不懂文档结构？计算所重构Agentic RAG文档推理能力

论文：https://arxiv.org/abs/2602.05014

代码：https://github.com/Zhanli-Li/DeepRead

AI读不懂文档结构？计算所重构Agentic RAG文档推理能力

文档结构建模：给每个段落分配「坐标」

DeepRead首先通过OCR工具将原始文档转化为结构化Markdown格式，构建双维度结构模型：

层级维度：区分标题（如章节）和内容段落，记录标题的父子关系（如「2.方法」包含「2.1模型设计」）；

顺序维度：给每个段落分配唯一坐标（doc_id, sec_id, para_idx），即「文档ID-章节ID-段落索引」，让每个文本片段都有明确的位置标识。

同时，DeepRead会将轻量化的目录（TOC）注入系统提示，让智能体掌握全局结构，无需加载全量文档内容，平衡上下文开销与结构感知能力。

两大核心工具：Retrieve与ReadSection的协同

DeepRead为智能体配备两个互补工具，模拟人类「快速定位+深度阅读」的行为：

Retrieve（扫描式定位）：接收语义查询，返回Top-K相关段落及其坐标，同时支持「扫描窗口」（在召回的段落加上前后各1段），模拟人类快速浏览上下文的行为；

ReadSection（聚焦式阅读）：接收坐标范围（如doc_id=1, sec_id=3, start_para=0, end_para=5），返回该范围内的连续、保序段落，重构完整语义上下文，彻底解决碎片化问题。

两者形成闭环：Retrieve负责「找方向」，快速锁定相关章节；ReadSection负责「深挖掘」，获取完整证据，避免关键词检索的局限性。

涌现行为：自主学会「定位再阅读」

无需手动编码规则或是特定指令，DeepRead可自主进化出类人推理策略：先通过Retrieve获取结构锚点，再调用ReadSection精读相关章节。实验显示，90%以上的查询会遵循这一范式，且工具调用比例会自适应任务特性——ContextBench（长文档推理）更依赖ReadSection，FinanceBench（金融数据提取）更依赖Retrieve。

AI读不懂文档结构？计算所重构Agentic RAG文档推理能力

实验结果

跨场景的显著提升

研究人员在四大基准数据集（涵盖单文档/合成多文档数据集）上验证了DeepRead的效果，核心结果参考下表

AI读不懂文档结构？计算所重构Agentic RAG文档推理能力

关键亮点包括：

长文档推理突破：在需长距离依赖的ContextBench上，DeepRead准确率从74.5%提升至91.5%，提升幅度达17.0%，验证了结构感知对长文档的价值；
多文档融合优势：在基于QASPER（学术论文问答）和SyllabusQA（课程大纲对比）合成的多文档数据集上表现优越，分别提升7.7%和13.8%，证明结构感知能有效跨文档整合证据；
鲁棒性验证：通过DeepSeek-V3.2、GLM-4.7、Qwen3-235B三大独立法官评估，结果一致率达88.58%，确保提升并非偶然。

AI读不懂文档结构？计算所重构Agentic RAG文档推理能力

值得注意的是，DeepRead的优势并非来自「更多的检索片段」——即使Search-o1允许检索更多文本块，仍无法弥补结构缺失的差距；而盲目扩展上下文（expand）可能会降低DeepRead在部分任务上的性能，因为结构化阅读已能提供足够连贯的证据，冗余文本只会引入噪声。

案例直观感受：从「关键词拼凑」到「章节精读」

以FinanceBench中的亚马逊营收计算任务为例：

传统Search-o1风格的Agentic Search需反复检索「2016营收」「2017净销售额」等关键词，可能混淆「预估数据」与「实际财报数据」；

DeepRead则先通过Retrieve定位到「合并利润表」章节，再用ReadSection读取完整表格，精准提取2016年135987百万美元、2017年177866百万美元的净销售额，计算出30.8%的同比增长率。

总结

DeepRead的核心价值在于：挖掘文档原生结构先验，用轻量坐标系统和协同工具，实现了Agentic RAG的结构感知升级。

相比构建复杂知识图谱的方案，DeepRead无需额外结构化成本，仅通过OCR解析和工具设计，就在长文档、多文档任务上实现显著提升，兼具实用性和效率。

参考资料：

https://arxiv.org/abs/2602.05014

文章来自于“新智元”，作者 “LRST”。

关键词: AI新闻 , 模型训练 , DeepRead , RAG

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI