摘要
本发明涉及医学推理大模型构建方法、装置、电子设备及存储介质,该方法包括:基于临床指南和医学文献构建推理规则路径,并以患者病历数据作为规则引擎,以构造不同推理路径的医学推理数据集。通过RAG验证医学推理数据集中的医学推理路径,并利用验证通过的医学推理路径集合对大模型进行监督微调,得到推理监督大模型。通过引入KL正则化项和KL散度强度衡量系数设定推理奖励函数,并基于推理奖励函数结合验证数据集对推理监督大模型进行强化训练,以构建医学推理大模型。本发明利用核验通过的数据集对大模型进行监督微调,结合设定的推理奖励函数和验证数据集对监督微调后的大模型进行强化训练,有效提高了医学复杂推理的准确性。