一种基于视觉语义和地图集成的零样本连续视觉语言导航方法
申请号:CN202510499754
申请日期:2025-04-21
公开号:CN120403600B
公开日期:2025-11-25
类型:发明专利
摘要
本发明公开一种基于视觉语义和地图集成的零样本连续视觉语言导航方法,包括以下步骤:S1.接受当前导航任务的自然语言指令,并通过文本编码器对其进行编码和特征提取,以获得指令特征;S2.捕获执行任务时的RGB视图,对RGB视图中的环境知识进行解耦,获得环境解耦知识;S3.捕获执行任务时的Depth视图,结合RGB视图以及指令特征,通过跨模态注意力网络获得自我中心的语义地图;S4.结合语义地图以及指令特征,根据航点生成网络生成一系列通向目标的可导航航点;S5.利用这些可导航航点以及环境解耦知识,预测导航智能体当前的导航动作;S6.重复上述步骤,直至导航任务完成或达到最大移动步数。
技术关键词
语义地图
导航方法
网格地图
视觉
规划决策模块
物体
文本编码器
指令
样本
BERT模型
自然语言
跨模态
矩阵
注意力机制
网络
精确地识别