一种医疗科普问答模型微调方法、装置、设备、介质及产品

申请号：CN202411745833

申请日期：2024-11-29

公开号：CN119669416A

公开日期：2025-03-21

类型：发明专利

摘要

本申请公开了一种医疗科普问答模型微调方法、装置、设备、介质及产品，涉及大语言模型微调领域，该方法包括对医疗文本问答数据集中的数据进行清洗，确定清洗后的指令‑输入‑输出范式的数据集，并作为微调训练数据集；在预训练的大语言模型中，定位至多头自注意力机制中的QKV投影矩阵与前馈神经网络中的权重矩阵；分别在各个矩阵中，引入两个低秩矩阵，微调预训练的大语言模型，确定微调后的大语言模型；微调后的大语言模型用于根据用户与微调后的大语言模型使用交互的过程中的问题数据，生成回答，本申请微调大语言模型，提高了处理特定任务的性能，降低了计算成本，且增强了模型对特定细节的掌握能力，满足特定用户群体或应用场景的需求。

技术关键词

问答模型微调方法矩阵前馈神经网络注意力机制大语言模型数据文本微调装置云服务器超参数处理器生成答案序列计算机程序产品指令计算机设备元素优化器