摘要
本发明涉及一种基于强化反馈的医疗交互式大模型训练方法,涉及医疗交互领域,所述方法包括:基于输入数据序列和输出数据序列建立医疗交互式大模型;在完成一次医疗交互后,根据针对对话答复框最新答复内容反馈的评分数值确定对医疗交互式大模型的补充训练次数以完成对大模型的强化训练。本发明还涉及一种基于强化反馈的医疗交互式大模型训练系统。通过本发明,针对医疗交互式大模型无法量化式地强化反馈训练且内部结构不够完善的技术问题,通过引入隐藏层数量动态选择的深度神经网络架构以及定制化数据结构,完善医疗交互式大模型的结构,同时根据针对最新答复内容反馈的评分数值确定对大模型的补充训练次数,从而解决了上述技术问题。