结构化预处理让DeepSeek准确率提升51%，现已开源丨清华&深言

6899点击 2026-01-05 14:28

零成本降低大模型幻觉新方法，让DeepSeek准确率提升51%！

方法名为LingoEDU（简称EDU），即基本信息单元（Elementary Discourse Unit，EDU）技术。

LingoEDU在大模型正式生成之前装上的一个专门执行「预处理环节」的模型，这一环节主打精准切分，并且为每一个最小信息单元分配唯一的索引标记，给每一个生成内容打上标号——当需要引用某个信息时，可以精确地指向它的位置。

如此一来，让信息进入主模型进行思考生成前，先完成结构化预处理。

结构化预处理让DeepSeek准确率提升51%，现已开源丨清华&深言

LingoEDU示意：将原文拆分成基本语义单元树后，能方便地在多文档问答、文档总结、DeepSearch等应用场景进行高效地上下文处理

这种「坐标系」让后续的所有操作都可以溯源，模型输出的任何内容都能精确对应到原文的具体位置，将「生成」关进「可追溯」的笼子里。

试想，如果生成的每句话、每个信息点都能精准地追溯到原文，都能check其正确与否，那么幻觉问题就可以在最大程度上被解决。

总结来说，其核心是对上下文进行结构化的精准切分，形成富含结构信息和语义信息的篇章结构树——每个节点都是一个完整的基本话语单元，节点之间通过清晰的层级关系连接。

LingoEDU具备如下优点：

1. 所形成的最小信息单元完整保留了原文的「语义信息」，同时保留了节点信息的完整性和节点之间信息的连贯性。

2. 使得上下文包含精准的「结构信息」，便于高效压缩，提升生成准确性。

实验结果显示，LingoEDU在切分准确性指标上显著超过所有基线模型，在成本和效率上也显著优于所有通用大模型的方法。

LingoEDU能够零成本适配所有大模型。在有着“AGI终极试炼”之称的HLE榜单上，DeepSeek-R1的准确率是9.0%，使用EDU之后准确率提升到13.6%，准确率相对提升51%。

这项研究由深言科技联合清华大学NLP实验室提出，以下是更多细节。

结构化预处理让DeepSeek准确率提升51%，现已开源丨清华&深言

现有方案的两难困境

大模型产生幻觉的核心原因，从输出一侧来看，可以归结为其任务是基于概率的“合理的下一个词”的生成器；从输入一侧来看，则是由于输入的上下文过长，模型容易在海量信息中「迷路」，无法准确理解其中全部内容，从而产生不忠实于原文的输出。

前者是这种技术范式的固有特征，后者则可以在一定程度上被规范。

基于这一洞察，对后者问题的一个自然解决思路是：在把文档喂给模型之前，先做一些预处理，压缩去除冗余信息、保留必要信息，这样降低模型幻觉风险，同时降低模型处理成本和效率。

在过去的大模型训练过程中，任一基础模型都能实现对文档进行基本的结构化切分，但是其精准性却无法得到保证，这也是幻觉率居高不下的原因。

目前业界主要有两类上下文压缩方法，但都存在明显的缺陷：

显式压缩：看得见，但读不懂

这类方法直接对文本「动刀」，比如删除不重要的词或句子。

问题在于，这种操作往往基于单个词（Token）或粗糙的句子级别进行，容易把句子切得支离破碎。

比如，原文是「因为天气恶劣，航班被迫延误」，压缩后可能变成「天气恶劣，航班延误」——虽然保留了关键词，但因果关系变得模糊。

对模型来说，这就像阅读一篇被打了马赛克的文章，很难准确理解原意。

隐式压缩：效率高，但成了黑盒

另一类方法是把文本压缩成向量表示（即“Gist Tokens”），相当于把整段话「浓缩」成一个黑盒表示。

这种方法效率很高，但问题在于：模型完全看不到原文是什么，只能依赖这个抽象的向量。

这就像让你只看一张照片的缩略图来描述细节——很容易产生误解和臆测。

我们需要的是什么？

归根结底，我们需要一种「两全其美」的方法：既保留文本的可读形式、避免黑盒带来的幻觉，又能维持语义的完整性、避免碎片化导致的连贯性丧失。

这就需要找到一种合适的切分方式，能把文档拆解成满足以上两个需求的信息块，作为文档处理、大模型正式生成的基础。

核心方法

团队提出全新框架LingoEDU，核心是提升文档处理的可溯源性和生成质量。该方法包含两个核心部分：以忠实度为导向的输入/输出设计，以及一套严格的自我修正数据合成流程。

结构化预处理让DeepSeek准确率提升51%，现已开源丨清华&深言

△ LingoEDU方法示意图

训练方法侧：基于EDU的忠实度

忠实度意味着可溯源性。团队通过将生成过程完全锚定在预定义的每一个EDU上，来实现这一目标。

1.EDU表示策略：前置唯一索引标记，为模型创建参考坐标系

选择句子作为EDU：不同于大多方案选用token或段落，该项目选择
句子作为操作单元。
与token相比，句子包含完整的语义命题，减少了碎片化；
与段落相比，句子在不同文体中长度分布更稳定，便于模型建模。
最关键的是，团队在输入Embedding中为每个EDU前置了唯一的索引标记，为模型创建了一个明确的参考坐标系。通过明确的位置表示，方便大模型进行可溯源生成，提升生成内容的忠实度。

2. 增强型结构生成：让模型「引用」而非「创作」

指针机制：为了保证结构忠实于原文，项目采用了Augmented Markdown模式。模型被训练为输出指向EDU的“指针”，而不是重新生成文本内容。生成的节点格式如下：

结构化预处理让DeepSeek准确率提升51%，现已开源丨清华&深言

消除幻觉：通过解码这个范围标记，可以将生成的结构无损地映射回原文的物理位置，从而有效消除了“位置幻觉”，从根本上消除了”凭空捏造”的可能。

3. 受限解码：从物理上阻止幻觉

为了进一步确保忠实度，项目在推理阶段施加了严格的词法约束。当模型生成范围标记中的数字时，可选的词表被严格限制为当前输入中实际存在的索引。

这就像给模型戴上了一副”有色眼镜”——它只能”看到”真实存在的选项，从物理上阻止了编造不存在引用的可能性。

训练数据侧：基于分解的可扩展数据合成

这一部分工作的核心作用是生产高质量的拆分数据用于模型训练。为了解决高质量、对齐的结构化数据稀缺的问题，项目引入了一个自动化流水线，其核心思想是在“角色”和“任务颗粒度”两个维度上进行分解。

1. 利用生成对抗的思想提升数据质量

项目实施了一种迭代优化机制，引入两个不同的代理：
a. 求解器（The Solver）：提出初步的EDU层级分解方案。
b. 批评家（The Critic）：审计提案的语义连贯性和边界精确度，只提供口头反馈，不直接修改结构。

这种对抗式协作迫使求解器重新思考模糊的边界，显著减少了在长文本场景下的性能退化。

2.双层任务分解（Bi-Level Task Decomposition）

核心作用：区分「结构信息」和「语义信息」，提升模型切分的准确性

团队认识到，文档结构化其实涉及两类本质不同的子任务：
a. 显性布局提取（Explicit Layout Extraction）： 这类任务确定性高，比如识别标题、列表、代码块等格式元素。模型主要依赖视觉和格式线索来构建骨架。
b. 深度语义分割（Deep Semantic Segmentation）： 这类任务歧义性高，模型专注于大段文本内的语义转换，划分更细粒度的EDU。

这种分离避免了端到端方法中常见的“指令冲突”（Instruction Conflict），即避免模型混淆视觉布局与语义逻辑，从而提升了训练数据的整体质量。

Lingo EDU让DeepSeek准确率相对提升51%

语义切分效果实验

为了验证LingoEDU的切分效果，团队构建了248篇文章（包含web和pdf文件）组成的语义切分评测数据集，在这个数据集上，对比了本项目所采用的切分方法和各种基线方法的效果，主要指标是树编辑距离（TED，Tree Edit Distance）和文章级别准确率（DLA，Document Level Accuracy），同时针对成本和效率进行了对比。

实验结果显示，本项目的方法在切分准确性指标TED和DLA上显著超过所有基线模型，在成本和效率上也显著优于所有通用大模型的方法。

结构化预处理让DeepSeek准确率提升51%，现已开源丨清华&深言

下游应用效果实验

相对线形的文本，精细化切分后的语义单元树能提供更加丰富的结构化信息和更加细粒度的信息管理和压缩，提升模型生成的准确性；同时由于信息表达的方式相对原始文本没有发生变化，可以方便地应用在各种下游任务上。

在有着中文网页检索天花板难度之称的测试集BrowseComp-ZH上，将各大模型的LLM API+RAG Research叠加EDU技术后，准确率全部提升，其中DeepSeek V3.1提升的幅度近一倍，达到18.7%。

结构化预处理让DeepSeek准确率提升51%，现已开源丨清华&深言

在有着“AGI终极试炼”之称的HLE（Humanity’s Last Exam，人类最后的考试）测评集上，官方数据对行业头部大模型准确率的测评结果如下：

结构化预处理让DeepSeek准确率提升51%，现已开源丨清华&深言

适配EDU技术之后，各模型的准确率表现有明显提升，DeepSeek R1的提升幅度较大，从9.0%提升到13.6%，准确率相对提升51%。

结构化预处理让DeepSeek准确率提升51%，现已开源丨清华&深言

同时，团队也在LongBench（包括Multi-Doc QA、Summarization和Few-shot任务）上进行了对比实验，以Gemini-2.5-Pro和GPT-4.1为代表模型，验证LingoEDU的效果，实验结果显示LingoEDU能够提升模型在LongBench所有摘要总结、多文档问答等子任务的效果。

结构化预处理让DeepSeek准确率提升51%，现已开源丨清华&深言

核心价值

价值点一：解决行业核心痛点——根治“幻觉”，让AI生成更可信

核心：直接回应当前大模型应用中最受诟病、也最影响商用的“幻觉”问题。LingoLingoEDU不是“缓解”，而是通过结构性变革“根治”幻觉。

LingoEDU（基本语义单元）技术，将文本拆解为一棵「语义树」。AI的每一次生成，都像在树上「按图索骥」，精准锚定到原文句子，从源头上杜绝了编造与偏离。

可溯源的生成：每个结论都能追溯到原文的精确位置，让AI「引用」而非「重写」，保证100%的文本忠实度。

价值点二：实现革命性效率——高效降本，实现智能“管理”

核心：将超长文本从粗放的压缩升级为“智能信息管理”，提供更优的投入产出比。

传统的上下文处理是「粗放式压缩」，而LingoEDU进行的是「精细化信息管理」。LingoEDU提供的不是更短的文本，而是结构更清晰、语义更完整的「文本地图」。

实验证明，该项目所采用的方法在取得最高切分精度的同时，成本与效率显著优于调用通用大模型。这意味着客户能以更低的计算开销，获得更准确、更可靠的AI处理结果。

这棵「语义树」是通用的能力增强器。无论是长文档问答、摘要总结还是复杂推理，它都能让现有模型的性能获得普适性提升。

价值点三：彰显技术领导力——定义新标准，从“黑盒”走向“白盒”

核心：将LingoEDU定位为一次重要的技术范式演进，引领行业走向可解释、可控制的AI。

AI应用正从「效果惊艳」走向「流程可信」。忠实度意味着可溯源性，LingoEDU正是这一理念的工程化实践，推动AI从「黑盒魔术」走向「白盒工程」。

开创了「基于分解的可扩展数据合成」流程，通过「求解器-批评家」循环与双层任务分解，自动化生产高质量训练数据，解决了该领域数据稀缺的核心瓶颈，构建了坚实的技术壁垒。

LingoEDU不仅是一项技术，更是为下一代可信AI基础设施提供的一个关键模块。它定义了如何让大模型更可靠地理解与处理人类复杂知识的新标准。

论文链接：

https://arxiv.org/pdf/2512.14244

Github开源链接：

https://github.com/DeepLangAI/LingoEDU

文章来自于“量子位”，作者 “LingoEDU团队”。

关键词: AI新闻 , 模型训练 , LingoEDU , EDU

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI