摘要
本发明公开了基于自然语言对三维点云机器人引导的方法及系统,基于Transformer架构的机器人,设置动作位置t,将所述动作位置t的视觉图像数据转换为三维点云以及标准化输入,并进行下采样,完成数据预处理;基于数据预处理,将生成的预处理数据的点云进行编码,提取点云的空间特征,生成视觉信息;并通过对自然语言指令进行向量嵌入,将自然语言指令表示成模型能够理解和处理的向量,生成文本信息;基于视觉信息和文本信息,通过注意力机制将生成的视觉信息和上下文信息融合;基于上下文信息的融合,通过预测热图和偏移量,预测动作位置步骤的三维位置,提高了机器人对复杂指令的理解和执行能力以及机器人未来动作预测的准确性。