基于跨模态对比学习和描述增强的街景图像地理定位方法及系统
申请号:CN202411890192
申请日期:2024-12-20
公开号:CN119964136A
公开日期:2025-05-09
类型:发明专利
摘要
本发明涉及地理定位技术领域,特别涉及一种基于跨模态对比学习和描述增强的街景图像地理定位方法及系统,利用预训练的图像编码器获取待查询街景图像视觉特征和参考图像图库特征集,利用大语言模型生成待查询街景图像的文本描述特征,并将视觉特征和文本描述特征进行融合生成待查询街景图像的查询特征集;基于查询特征集和图库特征集将待查询街景图像与参考图像对齐,以获取待查询街景图像的地理位置;其中,图像编码器在训练过程中基于街景图像样本集和参考图像样本集并使用预设跨模态对比学习损失函数对图像编码器进行训练。本发明能够解决非全景图像定位问题,提高定位过程的准确性和灵活性,在地理定位领域具有较好的应用前景。
技术关键词
图像地理定位方法
街景
图像编码器
跨模态
查询特征
样本
图像视觉特征
图像地理定位系统
文本
地理定位技术
对齐模块
图像增强
数据
多层感知器
可读存储介质
大语言模型
图像压缩
定位问题