摘要
本发明公开了一种基于强化学习的机器人步态训练方法及系统,涉及电动车充电技术领域,包括基于参考视频的模仿学习初始化策略;选取多个评估指标设计动态奖励函数以引导初始策略网络优化步态性能;通过环境难度调度机制,根据策略表现自动调整训练环境难度;利用PPO算法对策略网络进行优化训练;通过构建认知负荷指标对优化步态策略进行判定,并输出最终步态策略。本发明将模仿学习、自适应奖励建模、多阶段调度、强化学习优化及认知反馈有机融合,构建了一个具备泛化能力、稳定性与社会适应性的机器人步态训练框架。该方法在复杂地形与交互场景下均可显著提升机器人步态的自然性、稳定性和人机友好性,具有广泛的应用前景与推广价值。