摘要
本发明公开了一种基于WMSRL模型的机器人避障方法,WMSRL模型运行在机器人运动协调控制模块中。所述WMSRL模型包括有两部分内容,一部分是在机器人安全探索过程中采用安全强化学习手段,另一部分是应用改进的世界模型进行机器人位姿信息的策略学习。经本发明避障方法处理后的机器人动作轨迹会在世界模型中模拟执行,从而预测机器人每个时刻状态对应的奖励、代价、奖励回报值和代价回报值。本发明采用无模型的安全强化学习方法与改进的世界模型相结合,这种结合旨在提高对位姿信息利用率,从而更快地促进可行域内的策略收敛,并通过在世界模型中使用在线规划以实现训练和探索过程中代价的最小化。