基于跨语言语义压缩的多语言生成式检索方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于跨语言语义压缩的多语言生成式检索方法
申请号:CN202510851760
申请日期:2025-06-24
公开号:CN120892582A
公开日期:2025-11-04
类型:发明专利
摘要
本发明涉及基于跨语言语义压缩的多语言生成式检索方法,属于信息检索技术领域。本发明包括步骤:构建多语文档检索数据集;通过关键词抽取模型从多角度抽取多语文档的关键词,并且使用语义相似性将抽取的关键词进行计算,构建相似性矩阵;根据相似性矩阵进行语义聚类,并使用原子ID对聚类簇进行表示,然后由关键词所在聚类簇为每个多语文档分配文档标识符;在推理阶段,输入查询后,采用动态多补约束解码方式,根据之前步骤的解码结果,逐步缩小当前步文档标识符的解码范围,从而得到最终的文档标识符。本发明的检索能力相比其他模型得到明显提高。
技术关键词
关键词 检索方法 标识符 语义 维基百科 文本编码器 解码方式 矩阵 信息检索技术 聚类 页面结构 爬虫技术 检索系统 多角度 数据 序列 阶段 动态