基于内在值对齐离线到在线强化学习的机器人自主控制方法及装置

申请号：CN202510834761

申请日期：2025-06-20

公开号：CN120862657A

公开日期：2025-10-31

类型：发明专利

摘要

本发明公开了一种基于内在值对齐离线到在线强化学习的机器人自主控制方法及装置，该方法步骤包括：采用离线到在线强化学习方法对被控机器人的控制策略进行学习训练；在离线预训练阶段，将状态价值函数分解为内在状态价值函数和优势价值函数，并采用动态加权机制进行融合，以基于内在价值信息学习进行机器人控制值更新；在线微调阶段，通过将Q值函数与内在状态价值函数进行对齐，以将内在价值信息作为参考信息潜入在线微调阶段的Q值更新过程，实现Q值函数、内在状态价值函数以及当前控制策略三者的同步学习。本发明能够有效提高策略优化的准确性和效率，使机器人能够在有限的在线交互下快速适应真实环境，提升实际任务执行能力。

技术关键词

机器人自主控制离线在线强化学习方法控制策略阶段策略更新策略优化方法机器人控制系统评估机器人概率分布函数可读存储介质存储计算机程序表达式机制噪声处理器