摘要
本发明涉及一种基于多视角跨模态匹配的位置识别模型构建方法及系统,涉及计算机视觉和自然语言处理技术领域,针对的问题是:传统的视觉位置识别方法在复杂环境和多视角场景下难以保持高精度,且无法有效处理自然语言描述。为了解决这一问题,本发明通过多视角图像和自然语言文本描述的结合,采用文本编码和视觉编码分别对文本和图像进行特征提取;然后,使用聚类算法对图像特征进行聚类,并将每个位置的多视角图像特征拼接成全局图像特征;最后,通过计算文本特征与图像特征的相似度,进行位置匹配。通过结合视觉和文本信息,本发明解决了传统方法在复杂场景和视角变化下的鲁棒性和准确性差的问题,可广泛应用于无人系统导航领域。