摘要
本发明涉及对比学习的四足机器人运动控制方法、装置及存储介质,在自引导潜在表示学习网络中,对历史观测数据,使用在线网络和目标网络分别输出预测表示和目标表示,使用基于负余弦相似度的第一损失函数优化预测表示和目标表示的表示一致性,并提取潜在特征和速度预测值,近端策略优化网络包括以外部信息为输入的评论家网络,在近端策略优化网络中,将去除线速度后的实时观测数据、潜在特征和速度预测值,通过三层多层感知器输出关节控制指令。本发明无需依赖视觉等外部传感器或完整环境特权信息,仅需本体感受输入(IMU、编码器数据)即可实现稳定控制,硬件成本更低、平台适配性更强,可直接部署于无外部传感器的机器人平台。