基于大模型的位置去偏的长期对话方法

申请号：CN202410925347

申请日期：2024-07-11

公开号：CN118798338A

公开日期：2024-10-18

类型：发明专利

摘要

本发明公开了一种基于大模型的位置去偏的长期对话方法，包括以下步骤：1)对于输入的对话D，对大模型使用位置嵌入的注意力进行调整，提取对话中的因果相关话语；2)对大模型进行微调，将微调过程中的损失分为两部分：预测损失和因果感知损失；3)使用经过步骤1)和步骤2)调整后的大模型作为长期对话系统的基座，使用时，系统指令和对话历史D连接起来并输入模型用以生成回复R。本发明通过对大模型进行微调，使模型不再受到位置偏见的影响，使用上述微调后的大模型作为长期对话系统的基座用以生成回复，增强其因果感知能力，提高模型的性能。

技术关键词

对话方法对话系统注意力处理器基座存储装置语义可读存储介质指令效应风险异性电子设备程序聚类计算机偏差元素频率数据