一种基于多模态信息融合的视觉定位方法及系统

申请号：CN202411469852

申请日期：2024-10-21

公开号：CN119478051A

公开日期：2025-02-18

类型：发明专利

摘要

本发明公开了一种基于多模态信息融合的视觉定位方法及系统，属于计算机视觉领域。所述方法包括：获取同一场景下的RGB图像和深度图像，并通过多模态特征提取网络从所述RGB图像中提取语义特征，从所述深度图像中提取结构特征；通过特征平衡模块对所述语义特征和语义特征进行权重分配和深度融合，得到最终的多模态融合特征；基于所述最终的多模态融合特征，预测每个二维像素点的三维场景坐标及其对应的不确定性；基于所述预测的坐标，计算相机的6自由度位姿。本发明解决了现有单一模态视觉定位方法中存在的纹理依赖性和结构模糊性问题。

技术关键词

多模态信息融合视觉定位方法融合特征特征提取网络加权特征结构特征提取语义特征提取 RANSAC算法像素点图像序列视觉定位系统多层次坐标点相机模型上采样