基于跨语言语义压缩的多语言生成式检索方法

申请号：CN202510851760

申请日期：2025-06-24

公开号：CN120892582A

公开日期：2025-11-04

类型：发明专利

摘要

本发明涉及基于跨语言语义压缩的多语言生成式检索方法，属于信息检索技术领域。本发明包括步骤：构建多语文档检索数据集；通过关键词抽取模型从多角度抽取多语文档的关键词，并且使用语义相似性将抽取的关键词进行计算，构建相似性矩阵；根据相似性矩阵进行语义聚类，并使用原子ID对聚类簇进行表示，然后由关键词所在聚类簇为每个多语文档分配文档标识符；在推理阶段，输入查询后，采用动态多补约束解码方式，根据之前步骤的解码结果，逐步缩小当前步文档标识符的解码范围，从而得到最终的文档标识符。本发明的检索能力相比其他模型得到明显提高。

技术关键词

关键词检索方法标识符语义维基百科文本编码器解码方式矩阵信息检索技术聚类页面结构爬虫技术检索系统多角度数据序列阶段动态