用AgenticLU长上下文理解,LLM澄清链CoC实现自学,答案召回率高达97.8% | 最新

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
用AgenticLU长上下文理解,LLM澄清链CoC实现自学,答案召回率高达97.8% | 最新
7000点击    2025-03-06 09:54

LLM一个突出的挑战是如何有效处理和理解长文本。就像下图所示,准确率会随着上下文长度显著下降,那么究竟应该怎样提升LLM对长文本理解的准确率呢?


用AgenticLU长上下文理解,LLM澄清链CoC实现自学,答案召回率高达97.8% | 最新


最近,来自AMD和UC San Diego的研究团队提出了一个创新的解决方案——AgenticLU(Agentic Long-Context Understanding)框架,通过引入"澄清链"(Chain-of-Clarifications,CoC)机制,实现了长文本理解能力的突破性提升,在NarrativeQA数据集上取得了97.8%的惊人答案召回率。这个实验结果是目前已知最好的结果。我们看下这篇文章介绍了什么:


用AgenticLU长上下文理解,LLM澄清链CoC实现自学,答案召回率高达97.8% | 最新

图片由修猫创作


用AgenticLU长上下文理解,LLM澄清链CoC实现自学,答案召回率高达97.8% | 最新


框架整体架构


AgenticLU的整体架构如下图所示,包含三个主要部分:


用AgenticLU长上下文理解,LLM澄清链CoC实现自学,答案召回率高达97.8% | 最新


1. 传统LLM的局限性

  • 在处理长文本QA任务时容易失败
  • 直接回答往往无法准确定位关键信息
  • 缺乏系统性的理解过程

2. AgenticLU的CoC构建过程

  • 通过Path Sampling生成多个可能的理解路径
  • 每个路径包含多个Self-Clarify步骤
  • 使用Pointback机制精确定位相关文本
  • 通过SFT(Supervised Fine-tuning)和DPO(Direct Preference Optimization)进行两阶段训练

3. 创新的2-Level Scaling策略

  • 第一层:构建基础CoC数据集
  • 第二层:通过Self-Clarify扩展数据集
  • 实现高效的数据利用和模型训练


工作流程详解


AgenticLU的工作流程可以分为以下几个关键步骤:


1. 输入处理

  • 接收长文本文档和问题
  • 初始化CoC路径生成过程

2. 路径采样

  • 生成多个可能的理解路径
  • 每个路径包含不同的澄清问题序列

3. 自我澄清

  • 模型生成针对性的澄清问题
  • 通过Pointback机制定位相关文本
  • 基于定位的文本回答澄清问题

4. 训练优化

  • SFT阶段:学习生成高质量的CoC路径
  • DPO阶段:优化模型的决策偏好

5. 最终推理

  • 综合多轮澄清的结果
  • 生成准确的最终答案


澄清链Chain-of-Clarifications(CoC)是AgenticLU框架的核心创新,它模拟了人类在阅读复杂文本时的认知过程。当我们遇到需要深入理解的内容时,往往会自然地提出一系列问题,并在文本中寻找答案。

CoC就是将这个过程系统化和自动化。


CoC通过以下步骤工作:


1. 自动生成澄清问题

  • 模型会根据原始问题和上下文,生成有针对性的澄清性问题
  • 这些问题旨在解决理解中的模糊点或需要进一步确认的细节

2. 上下文定位

  • 使用pointback机制在长文本中精确定位相关段落
  • 通过段落索引的方式,避免处理无关信息

3. 回答声明的问题:

  • 基于定位到的上下文回答澄清性问题
  • 将多个澄清问题的答案整合,形成完整的理解

4. 迭代优化

  • 如果需要,可以进行多轮澄清
  • 每一轮都会加深对文本的理解


AgenticLU的实现过程可以分为两个主要阶段:CoC路径构建和CoC路径蒸馏。这种设计既确保了高质量的训练数据,又实现了推理时的高效率。


基础模型与训练数据


研究团队选用了Llama3.1-8B-Instruct作为基础模型,这是一个经过指令微调的80亿参数模型。主要训练数据来自NarrativeQA数据集,包含14.7K个问答对。这些数据的特点是:


  • 平均上下文长度:67,812 tokens
  • 最大上下文长度:128K tokens
  • 总生成token数:17M
  • 验证集大小:11.9K条数据


CoC路径构建


在这个阶段,系统通过树搜索的方式收集有效的CoC理解路径:


  • 使用分支因子8,搜索深度最多3层
  • 每个节点代表一个CoC步骤
  • 通过扩展推理时间来确定最有效的澄清问题和相关证据
  • 在NarrativeQA数据集上实现了97.8%的答案召回率


评估标准包括:


  1. 语义相似度:使用RougeL分数衡量与标准答案的相似度
  2. 离散正确性:使用GPT4o-mini进行二元验证


CoC路径蒸馏


为了提高推理效率,研究团队采用了两阶段的微调策略:


1. 监督式微调(SFT)

  • 学习率:5e-7
  • 优化器:Adam(β1=0.9,β2=0.95)
  • 批次大小:128
  • 训练精度:bf16
  • 学习率调度:余弦退火

2. 直接偏好优化(DPO)

  • 使用与SFT相同的基本参数
  • DPO特定参数β=0.1
  • 通过GPT4o-mini判断生成答案正确性来构建偏好对


分布式训练实现


  • 使用4个GPU节点,每个配备4个AMD MI250 GPU
  • 采用DeepSpeed框架进行分布式训练
  • 使用vLLM进行推理
  • 实现基于OpenRLHF
  • 使用FlashAttention-2和Ring Attention处理超长序列


性能对比概览


如下图所示,研究团队对AgenticLU-8B与基础模型Llama3.1-8B以及其他方法进行了全面对比。实验结果表明,AgenticLU在各种上下文长度(从8K到128K)和不同任务类型上都取得了显著优势:


用AgenticLU长上下文理解,LLM澄清链CoC实现自学,答案召回率高达97.8% | 最新


1. 短文本任务表现

  • 基础模型(Llama3.1-8B)在短文本任务上的平均准确率为62.3%
  • AgenticLU对短文本任务的影响相对较小,准确率变化为-0.6%
  • 这表明AgenticLU的长文本增强并未影响其在短文本任务上的性能

2. 长文本任务性能提升

  • HotpotQA:+31.1%的显著提升
  • Natural Questions:+21.7%的准确率提升
  • TriviaQA:+7.7%的性能改善
  • PopQA:+9.4%的效果提升
  • NarrativeQA:+18.0%的准确率提升
  • InfiniteBench系列任务:分别提升2.0%和13.0%

3. 性能曲线分析

  • AgenticLU(图中橙色虚线)在所有任务上都显示出最佳或接近最佳的性能
  • 随着上下文长度增加,AgenticLU保持稳定的性能表现
  • 其他方法(如step-by-step、plan&solve等)在较长上下文下性能明显下降
  • ProLong-8B作为强基线模型,在某些任务上表现接近AgenticLU,但整体仍有差距

4. 关键优势

  • 性能稳定性:在128K长度的上下文中仍保持高性能
  • 通用性:适用于多种类型的问答任务
  • 可扩展性:随上下文长度增加,性能衰减最小


基线方法对比


研究团队将AgenticLU与两类方法进行了对比:


1. 提示工程方法

  • 思维链(Chain-of-Thought)
  • 计划与解决(Plan-and-Solve)
  • 事实与反思(Fact-and-Reflection)• LongRAG

2. 微调方法

  • ProLong-8B-512K(基于400亿token的长文本训练)


详细实验结果


在7个长文本任务上的表现(准确率%):


1. HotpotQA(多跳推理)

  • AgenticLU:71.1%
  • 基线模型:40.0%
  • 提升:+31.1%

2. Natural Questions

  • AgenticLU:77.8%
  • 基线模型:56.1%
  • 提升:+21.7%

3. TriviaQA

  • AgenticLU:88.3%
  • 基线模型:80.6%
  • 提升:+7.7%

4. PopQA

  • AgenticLU:65.5%
  • 基线模型:56.1%
  • 提升:+9.4%

5. NarrativeQA

  • AgenticLU:56.0%
  • 基线模型:38.0%
  • 提升:+18.0%

6. InfiniteBench QA

  • AgenticLU:50.0%
  • 基线模型:48.0%
  • 提升:+2.0%

7. InfiniteBench Choice

  • AgenticLU:68.0%
  • 基线模型:55.0%
  • 提升:+13.0%


计算开销分析


相比直接回答基线:


  • 运行时间开销:仅增加1.93%
  • 平均生成token数:
  • 基线:76.28 tokens/回答
  • AgenticLU:1205.38 tokens/回答 有点费Token


消融实验结果


移除关键组件后的性能变化(在128K上下文长度测试):


  1. 1. 移除自我澄清
  • HotpotQA:从71.1%降至57.8%
  • Natural Questions:从77.8%降至56.7%
  • PopQA:从65.5%降至55.5%
  • TriviaQA:从88.3%降至78.3%
  1. 2. 移除上下文定位
  • HotpotQA:从71.1%降至53.3%
  • Natural Questions:从77.8%降至59.4%
  • PopQA:从65.5%降至52.7%
  • TriviaQA:从88.3%降至83.3%


多轮澄清效果


增加澄清轮数的效果:


  • 单轮:平均准确率75.7%
  • 两轮:平均准确率76.7%
  • 三轮:平均准确率78.4%


这表明虽然多轮澄清能带来性能提升,但主要收益在第一轮就已实现。


我认为,AgenticLU框架可以在多个实际应用场景中展现出巨大潜力:


1. 智能客服系统

  • 处理长对话历史
  • 准确理解用户问题并提供精确答案

2. 文档分析系统

  • 处理长篇技术文档
  • 回答复杂的多步骤查询

3. 知识库问答

  • 处理大规模知识库
  • 实现精确的信息检索和综合

4. 教育辅助系统

  • 理解长篇教材内容
  • 回答学生的深度问题


为了展示AgenticLU在实际应用中的价值,也是展示论文中对于解决常见场景最有价值的部分。我设计实现了一个基于该框架的市场分析Agent系统。该系统能够处理长文本市场报告,通过多轮澄清来提取关键信息,并生成结构化的分析报告。


系统架构设计


1. 核心组件

  • MarketAnalysisAgent类:实现AgenticLU的核心功能
  • 澄清链生成器:负责生成和管理澄清问题
  • 上下文管理器:处理长文本的分段和定位
  • 报告生成器:整合分析结果并生成最终报告


2. 关键功能实现

  • 多轮澄清机制
  • 动态上下文窗口
  • 进度可视化
  • 结果格式化输出


代码结构示例


class MarketAnalysisAgent:

def__init__(self, api_key, model="DeepSeek-R1-250120"):

self.openai_client = OpenAI(api_key=api_key)

self.model = model

self.max_tokens = 4096

self.temperature = 0.7

defgenerate_clarifications(self, context, question):

"""生成澄清性问题"""

# 实现CoC机制

pass

defanalyze_with_coc(self, document, query):

"""使用澄清链进行分析"""

# 实现多轮分析

pass


实际运行效果


用AgenticLU长上下文理解,LLM澄清链CoC实现自学,答案召回率高达97.8% | 最新


系统运行展示了以下特点:


1. 准确的信息提取

  • 能够从长文本中精确定位关键信息
  • 通过多轮澄清提高理解准确度

2. 高效的处理流程

  • 平均处理时间控制在合理范围
  • 资源消耗适中

3. 清晰的输出格式

  • 结构化的分析报告
  • 可追踪的推理过程


AgenticLU框架的提出和成功实现,可以说是LLM长文本理解能力的一个重要突破。通过创新的CoC机制和精心设计的训练策略,解决了长期困扰业界的问题,值得深入研究和借鉴。


文章来自于“AI修猫Prompt”,作者“AI修猫Prompt”。


用AgenticLU长上下文理解,LLM澄清链CoC实现自学,答案召回率高达97.8% | 最新

关键词: AI , AgenticLU , 澄清链 , 模型训练
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

5
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

6
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0