一种医疗科普问答模型微调方法、装置、设备、介质及产品
申请号:CN202411745833
申请日期:2024-11-29
公开号:CN119669416A
公开日期:2025-03-21
类型:发明专利
摘要
本申请公开了一种医疗科普问答模型微调方法、装置、设备、介质及产品,涉及大语言模型微调领域,该方法包括对医疗文本问答数据集中的数据进行清洗,确定清洗后的指令‑输入‑输出范式的数据集,并作为微调训练数据集;在预训练的大语言模型中,定位至多头自注意力机制中的QKV投影矩阵与前馈神经网络中的权重矩阵;分别在各个矩阵中,引入两个低秩矩阵,微调预训练的大语言模型,确定微调后的大语言模型;微调后的大语言模型用于根据用户与微调后的大语言模型使用交互的过程中的问题数据,生成回答,本申请微调大语言模型,提高了处理特定任务的性能,降低了计算成本,且增强了模型对特定细节的掌握能力,满足特定用户群体或应用场景的需求。
技术关键词
问答模型
微调方法
矩阵
前馈神经网络
注意力机制
大语言模型
数据
文本
微调装置
云服务器
超参数
处理器
生成答案
序列
计算机程序产品
指令
计算机设备
元素
优化器