摘要
本发明涉及基于跨语言语义压缩的多语言生成式检索方法,属于信息检索技术领域。本发明包括步骤:构建多语文档检索数据集;通过关键词抽取模型从多角度抽取多语文档的关键词,并且使用语义相似性将抽取的关键词进行计算,构建相似性矩阵;根据相似性矩阵进行语义聚类,并使用原子ID对聚类簇进行表示,然后由关键词所在聚类簇为每个多语文档分配文档标识符;在推理阶段,输入查询后,采用动态多补约束解码方式,根据之前步骤的解码结果,逐步缩小当前步文档标识符的解码范围,从而得到最终的文档标识符。本发明的检索能力相比其他模型得到明显提高。