一种基于视觉语义和地图集成的零样本连续视觉语言导航方法

申请号：CN202510499754

申请日期：2025-04-21

公开号：CN120403600B

公开日期：2025-11-25

类型：发明专利

摘要

本发明公开一种基于视觉语义和地图集成的零样本连续视觉语言导航方法，包括以下步骤：S1.接受当前导航任务的自然语言指令，并通过文本编码器对其进行编码和特征提取，以获得指令特征；S2.捕获执行任务时的RGB视图，对RGB视图中的环境知识进行解耦，获得环境解耦知识；S3.捕获执行任务时的Depth视图，结合RGB视图以及指令特征，通过跨模态注意力网络获得自我中心的语义地图；S4.结合语义地图以及指令特征，根据航点生成网络生成一系列通向目标的可导航航点；S5.利用这些可导航航点以及环境解耦知识，预测导航智能体当前的导航动作；S6.重复上述步骤，直至导航任务完成或达到最大移动步数。

技术关键词

语义地图导航方法网格地图视觉规划决策模块物体文本编码器指令样本 BERT模型自然语言跨模态矩阵注意力机制网络精确地识别

系统为您推荐了相关专利信息

一种管道维修机器人视觉单元的清洁结构

维修机器人清洁结构监控组件支撑滑架管道

结合反馈调节的缺陷自适应检测方法及系统

反馈控制单元光学轮廓仪光学摄像头前馈神经网络半导体晶圆缺陷

一种基于Mamba的皮肤镜图像分割方法、系统、设备及介质

皮肤镜神经网络模型多尺度语义特征图像特征编码混合损失函数

用于机器人的异构多核一体化芯片、控制器及控制方法

传感器集线器机器人规划决策模块异构 EtherCAT主站

一种基于无人机的高空应变片安装装置与方法

应变片安装装置平台装置无人机装置深度相机避障路径规划算法