一种模型强化微调方法、装置、设备及其存储介质

申请号：CN202510950281

申请日期：2025-07-09

公开号：CN120893507A

公开日期：2025-11-04

类型：发明专利

摘要

本申请属于人工智能技术领域，涉及一种模型强化微调方法、装置、设备及其存储介质，通过获取目标数量的任务演示数据；输入到构建完成的目标模型中，对目标模型进行离线初始训练，得到模型策略初始化后的目标模型；获取实时采集的任务指导数据；输入到模型策略初始化后的目标模型中，进行在线强化训练，得到模型策略微调后的目标模型。先以离线方式进行模型初始训练，得到初始化的模型，然后，结合实际采集数据进行在线强化学习训练，使得最终训练完成的模型更加符合实际应用场景。具体应用到医疗业务领域，例如微型机器人手术，或者金融业务领域，例如机器人进行信用卡实物制卡，保证最终训练完成的模型充分结合了大量的任务操作真实作业数据。

技术关键词

微调方法计算机可读指令条目离线在线视觉自然语言理解计划微型机器人标注策略可读存储介质对象意图分析组件人工智能技术数据获取模块微调装置