一种查询编码器的训练方法及相关装置

申请号：CN202510906086

申请日期：2025-07-01

公开号：CN120745737A

公开日期：2025-10-03

类型：发明专利

摘要

本申请公开了一种查询编码器的训练方法及相关装置，获取前k‑1轮的对话以及第k轮的查询。根据前k‑1轮的对话以及第k轮的查询，通过大语言模型进行重写，得到第k轮的目标重写查询。根据第k轮的目标重写查询，确定前k‑1轮的查询分别与第k轮的目标重写查询的相关性，得到第k轮的目标重写查询对应的历史相关查询和历史无关查询，并确定训练正样本和训练负样本，训练正样本包括目标段落文本和历史相关查询对应的段落文本。根据第k轮的目标重写查询、训练正样本以及训练负样本，通过对比学习对初始查询编码器进行训练，得到查询编码器。由此，通过大语言模型来对查询进行重写，快速获取表达信息完整的查询，更加高效地训练出较为准确的查询编码器。

技术关键词

大语言模型语义向量样本编码器文本模版层次聚类算法计算机设备存储计算机程序训练装置处理器存储器