一种模型强化微调方法、装置、设备及其存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种模型强化微调方法、装置、设备及其存储介质
申请号:CN202510950281
申请日期:2025-07-09
公开号:CN120893507A
公开日期:2025-11-04
类型:发明专利
摘要
本申请属于人工智能技术领域,涉及一种模型强化微调方法、装置、设备及其存储介质,通过获取目标数量的任务演示数据;输入到构建完成的目标模型中,对目标模型进行离线初始训练,得到模型策略初始化后的目标模型;获取实时采集的任务指导数据;输入到模型策略初始化后的目标模型中,进行在线强化训练,得到模型策略微调后的目标模型。先以离线方式进行模型初始训练,得到初始化的模型,然后,结合实际采集数据进行在线强化学习训练,使得最终训练完成的模型更加符合实际应用场景。具体应用到医疗业务领域,例如微型机器人手术,或者金融业务领域,例如机器人进行信用卡实物制卡,保证最终训练完成的模型充分结合了大量的任务操作真实作业数据。
技术关键词
微调方法 计算机可读指令 条目 离线 在线 视觉 自然语言理解 计划 微型机器人 标注策略 可读存储介质 对象 意图 分析组件 人工智能技术 数据获取模块 微调装置