摘要
本发明涉及图像内容理解领域,公开了基于地理特征提取的图像地理定位系统及方法,包括:特征提取模块,用于从多模态输入中提取视觉特征向量、GPS特征向量、文本位置描述特征向量和文本场景描述特征向量;对比学习模块,用于通过视觉特征与GPS特征、文本位置描述特征、文本场景描述特征的对比学习实现多模态特征对齐;数据集构建模块,用于融合多模态特征生成地理特征向量并构建检索向量数据集。通过采用多模态特征融合与跨模态对比学习的技术方案,达到了提升地理定位精度与泛化能力的技术效果。相较于现有技术中依赖单一模态或简单特征拼接的方案,解决了传统方法因模态信息割裂导致的语义鸿沟问题。