摘要
本申请属于人工智能技术领域,涉及一种模型强化微调方法、装置、设备及其存储介质,通过获取目标数量的任务演示数据;输入到构建完成的目标模型中,对目标模型进行离线初始训练,得到模型策略初始化后的目标模型;获取实时采集的任务指导数据;输入到模型策略初始化后的目标模型中,进行在线强化训练,得到模型策略微调后的目标模型。先以离线方式进行模型初始训练,得到初始化的模型,然后,结合实际采集数据进行在线强化学习训练,使得最终训练完成的模型更加符合实际应用场景。具体应用到医疗业务领域,例如微型机器人手术,或者金融业务领域,例如机器人进行信用卡实物制卡,保证最终训练完成的模型充分结合了大量的任务操作真实作业数据。