摘要
本发明提供了一种基于多模态流匹配的具身机器人动作预测方法及装置,涉及智能机器人的技术领域,包括:获取指令文本和机器人采集的图像特征集合,以及与各时刻位置的图像特征对应的深度图像集合;针对图像特征集合进行特征拼接处理和特征精炼处理,得到图像序列特征集合,并基于图像序列特征集合,对深度图像集合进行特征融合处理,确定目标视觉特征;通过将指令文本中的文本特征与目标视觉特征融合,确定文本视觉模态特征信息,并基于文本视觉模态特征信息,对机器人机械臂的动作进行预测,确定运动位姿预测特征。本发明可以显著提升具身机器人动作预测的准确率。