摘要
本发明公开了基于生成式压缩与两阶段检索的长文本处理方法及系统,包括以下具体步骤:S1,生成式压缩阶段;S101,将原始长文本语料输入生成式压缩模块;S102,进行压缩质量评估,若未通过则返回生成式压缩模块进行压缩,若通过则输入元数据索引库;S2,两阶段检索与生成;S201,首轮检索筛选Top‑K候选集;S202,对原始文本层进行次轮增强,采用思维链提示生成。本发明通过生成式压缩提炼语义密集元数据,降低噪声干扰,并且采用首轮元数据快速筛选候选集,次轮关联原始文本补充细节,可以支持多跳推理与专业领域需求。