摘要
本发明提供一种基于跨模态视觉‑文本融合的遥感图像分割方法,主体网络包括可以提取图像特征的图像编码器、提取语言特征的语言编码器、可以进行分割引导的跨模态视觉语言特征融合器、图像解码器模块设计,并设计非关键过滤器让模型更加聚焦于语言描述中的关键词,设计中心点预测器增强模型识别困难目标的能力,设计目标区域预测器让模型找出最可能包含目标的区域,设计虚警预测器来处理描述虚假目标的情况。最终搭建基于跨模态视觉‑文本融合的遥感图像指示分割网络模型,进行网络模型训练与参数优化。本网络模型所有模块都是基于Transformer模型,通过引入注意力机制捕获遥感图像局部特征与全局特征的的关系依赖以及遥感图像各区域与语言描述的关系依赖,使用跨模态视觉语言特征融合器使模型更加关注描述目标所在区域,最终实现从遥感场景图像中识别特定描述的目标。