摘要
本发明提出了基于协同对齐与自适应融合的视觉语言导航方法及系统,属于人工智能与计算机视觉领域。方法包括:获取自然语言指令、全景视图、导航历史及动态拓扑地图数据,提取指令特征、视觉特征、导航历史特征和地图节点特征;将指令特征、视觉特征进行特征增强预对齐并输入编码器进行深度融合,生成全局多模态融合特征和辅助决策信号;将全局多模态融合特征和辅助决策信号输入到粗细粒度结合的专家网络中,输出最终预测的导航动作;其中利用专家网络得到预测值;构建多源不确定性向量生成融合权重,融合预测值,得到最终预测的导航动作。有效解决了传统方法中模态鸿沟问题,提高复杂指令理解准确率、导航的稳定性和成功率。