摘要
本发明提出了一种基于文本‑点云匹配的地点识别模型构建方法及系统,涉及机器人和计算机视觉技术领域,针对的问题是:传统方法依赖于单一模态进行地点匹配,易受环境因素的影响,精度和鲁棒性较差。通过先进开源GPT‑4工具生成文本描述,结合KI TT I 360点云子图,实现文本到点云的语义对齐和跨模态特征融合。具体而言,通过文本编码模块和点云编码模块分别提取文本特征和点云特征,利用对比学习将文本描述和点云子图映射到统一的语义嵌入空间,采用级联跨模态注意力选择性状态空间模块,进一步优化文本与点云的特征匹配,提升了模型在复杂环境下的泛化性能和跨模态匹配的准确性,解决了单一模态地点识别技术复杂场景下鲁棒性和准确性差的问题。