一种基于场景文本信息引导的红外小目标检测方法

申请号：CN202410745798

申请日期：2024-06-11

公开号：CN118762364A

公开日期：2024-10-11

类型：发明专利

摘要

本发明提供一种基于场景文本信息引导的红外小目标检测方法，将首先将描述红外图像场景的文本提示引入到现有的红外数据集中，构建文本与图像的配对数据集；然后，通过基于场景文本信息引导的红外小目标检测网络模型，利用图像编码器提取红外图像的视觉特征；利用预训练语言模型将描述场景信息的文本提示映射为嵌入向量，实现文本特征的提取；接着通过内积运算实现图像和文本信息的高层语义特征融合，并计算文本‑图像全局匹配损失引导网络对目标和背景特征分别进行建模；在上采样结构中，通过基于文本特征引导的上下文增强模块，以融合文本和图像的全局和局部特征；将上采样后的特征图经过分割模块处理得到检测结果。

技术关键词

检测网络模型预训练语言模型文本编码器文本特征向量双线性插值高层语义特征场景上下文图像编码器上采样非暂态计算机可读存储介质多模态特征融合视觉特征交叉注意力机制模块更新网络参数深度学习框架