一种基于跨模态视觉-文本融合的遥感图像分割方法

申请号：CN202411566420

申请日期：2024-11-05

公开号：CN119600040A

公开日期：2025-03-11

类型：发明专利

摘要

本发明提供一种基于跨模态视觉‑文本融合的遥感图像分割方法，主体网络包括可以提取图像特征的图像编码器、提取语言特征的语言编码器、可以进行分割引导的跨模态视觉语言特征融合器、图像解码器模块设计，并设计非关键过滤器让模型更加聚焦于语言描述中的关键词，设计中心点预测器增强模型识别困难目标的能力，设计目标区域预测器让模型找出最可能包含目标的区域，设计虚警预测器来处理描述虚假目标的情况。最终搭建基于跨模态视觉‑文本融合的遥感图像指示分割网络模型，进行网络模型训练与参数优化。本网络模型所有模块都是基于Transformer模型，通过引入注意力机制捕获遥感图像局部特征与全局特征的的关系依赖以及遥感图像各区域与语言描述的关系依赖，使用跨模态视觉语言特征融合器使模型更加关注描述目标所在区域，最终实现从遥感场景图像中识别特定描述的目标。

技术关键词

遥感图像分割方法跨模态图像编码器语言编码器图像解码器视觉遥感场景图像预训练模型文本多层感知机引入注意力机制图像局部特征做法网络模型训练图像分割模型关键词特征过滤器结构