摘要
本发明提供一种基于场景文本信息引导的红外小目标检测方法,将首先将描述红外图像场景的文本提示引入到现有的红外数据集中,构建文本与图像的配对数据集;然后,通过基于场景文本信息引导的红外小目标检测网络模型,利用图像编码器提取红外图像的视觉特征;利用预训练语言模型将描述场景信息的文本提示映射为嵌入向量,实现文本特征的提取;接着通过内积运算实现图像和文本信息的高层语义特征融合,并计算文本‑图像全局匹配损失引导网络对目标和背景特征分别进行建模;在上采样结构中,通过基于文本特征引导的上下文增强模块,以融合文本和图像的全局和局部特征;将上采样后的特征图经过分割模块处理得到检测结果。