基于协同对齐与自适应融合的视觉语言导航方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于协同对齐与自适应融合的视觉语言导航方法及系统
申请号:CN202510918794
申请日期:2025-07-04
公开号:CN120427010B
公开日期:2025-09-12
类型:发明专利
摘要
本发明提出了基于协同对齐与自适应融合的视觉语言导航方法及系统,属于人工智能与计算机视觉领域。方法包括:获取自然语言指令、全景视图、导航历史及动态拓扑地图数据,提取指令特征、视觉特征、导航历史特征和地图节点特征;将指令特征、视觉特征进行特征增强预对齐并输入编码器进行深度融合,生成全局多模态融合特征和辅助决策信号;将全局多模态融合特征和辅助决策信号输入到粗细粒度结合的专家网络中,输出最终预测的导航动作;其中利用专家网络得到预测值;构建多源不确定性向量生成融合权重,融合预测值,得到最终预测的导航动作。有效解决了传统方法中模态鸿沟问题,提高复杂指令理解准确率、导航的稳定性和成功率。
技术关键词
视觉特征 融合特征 导航方法 多模态 指令 节点特征 拓扑地图 地标 决策 自然语言 编码器 注意力 物体 信号 拓扑图 动态 网络 特征提取模块