摘要
本发明提供了一种连续环境的视觉语言导航方法及系统,涉及视觉语言导航领域,基于语言指令和初始化为空的环境拓扑图,智能体采用分步导航的方式在未知的连续环境中自主导航到指定位置,每个分步导航的具体操作包括:获取智能体当前位置的局部全景图像和当前环境拓扑图;基于元认知监控,进行死锁检测,未检测到死锁则识别局部全景图像中的候选航路点,生成候选航路点的节点特征,并添加到当前环境拓扑图中,从当前环境拓扑图中选择最佳航路点;通过基于深度图的主动推理避障方法,生成智能体当前位置的底层动作指令;本发明将元认知监控、门控多模态融合决策以及推理–反应主动避障有机结合,为连续环境下的视觉语言导航提供了系统化的解决方案。