基于多模态流匹配的具身机器人动作预测方法及装置

申请号：CN202511259401

申请日期：2025-09-04

公开号：CN120791793A

公开日期：2025-10-17

类型：发明专利

摘要

本发明提供了一种基于多模态流匹配的具身机器人动作预测方法及装置，涉及智能机器人的技术领域，包括：获取指令文本和机器人采集的图像特征集合，以及与各时刻位置的图像特征对应的深度图像集合；针对图像特征集合进行特征拼接处理和特征精炼处理，得到图像序列特征集合，并基于图像序列特征集合，对深度图像集合进行特征融合处理，确定目标视觉特征；通过将指令文本中的文本特征与目标视觉特征融合，确定文本视觉模态特征信息，并基于文本视觉模态特征信息，对机器人机械臂的动作进行预测，确定运动位姿预测特征。本发明可以显著提升具身机器人动作预测的准确率。

技术关键词

动作预测方法视觉特征序列特征模态特征机器人预测特征计算机可执行指令图像多模态注意力模型运动特征语义编码特征反馈特征文本编码器机械臂动作预测装置