摘要
本发明涉及机器人控制技术领域,特别是涉及基于强化学习的机器人自适应运动控制算法,该算法获取机器人关节的力矩信号,并基于力矩信号构建表征机器人与环境交互状态的状态向量,通过分层强化学习训练机制,生成自适应运动控制策略,策略包括构建多维度奖励函数,融合任务完成度、能源效率、运动安全性及平滑度,并利用Q‑learning算法对状态向量和动作控制序列之间的映射关系进行迭代优化,在多种物理参数环境下验证自适应运动控制策略,并基于验证结果选择性地触发重新训练,验证通过的自适应运动控制策略部署到机器人控制系统,自适应性显著提高,使机器人控制策略能够适应±30%范围内的物理参数变化,无需人工干预重新调整参数。