基于生成式压缩与两阶段检索的长文本处理方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于生成式压缩与两阶段检索的长文本处理方法及系统
申请号:CN202510400936
申请日期:2025-04-01
公开号:CN120336513A
公开日期:2025-07-18
类型:发明专利
摘要
本发明公开了基于生成式压缩与两阶段检索的长文本处理方法及系统,包括以下具体步骤:S1,生成式压缩阶段;S101,将原始长文本语料输入生成式压缩模块;S102,进行压缩质量评估,若未通过则返回生成式压缩模块进行压缩,若通过则输入元数据索引库;S2,两阶段检索与生成;S201,首轮检索筛选Top‑K候选集;S202,对原始文本层进行次轮增强,采用思维链提示生成。本发明通过生成式压缩提炼语义密集元数据,降低噪声干扰,并且采用首轮元数据快速筛选候选集,次轮关联原始文本补充细节,可以支持多跳推理与专业领域需求。
技术关键词
文本处理方法 大语言模型 文本处理系统 语义 模块 建立映射关系 分块 支持多跳 两阶段 数据 索引 动态 论文 科研 实体 专业 噪声