基于关键点指导的机器人视觉语言导航方法、装置及设备

申请号：CN202510219635

申请日期：2025-02-26

公开号：CN120388191A

公开日期：2025-07-29

类型：发明专利

摘要

本发明提供一种基于关键点指导的机器人视觉语言导航方法、装置及设备，方法包括：提取语音指令的关键字作为目标文本；基于多模态预训练知识库，确定目标文本对应的知识原型特征，从知识原型特征，以及RGB图像对应的多个区域特征之间的相似度中确定出相似度最大的目标相似度；在目标相似度大于预设阈值的情况下，确定目标相似度对应的匹配对中区域特征中的目标物体，基于目标物体的深度信息，确定目标物体的目标坐标，基于目标坐标和机器人移动模型，确定机器人的导航路径。该方法通过视觉‑语言跨模态匹配，计算目标文本与图像区域的相似度以实现导航监督；能够在复杂场景中实现多模态信息的高效融合，显著提升机器人导航的精度和鲁棒性。

技术关键词

机器人视觉导航方法关键点原型物体文本速度非暂态计算机可读存储介质坐标系图像转向轮关键字多模态信息底盘相机处理器导航装置