摘要
本发明属于图像信息处理技术领域,公开一种场景引导提示表征增强的红外和可见光图像融合方法,分为两个阶段:第一阶段,构建场景提示生成网络,通过语义分割任务学习覆盖源图像的全局视觉语义信息。为进一步增强提示表征能力,设计了一个视觉感知的上下文提示模块,利用模态特定特征与文本特征之间的相关性矩阵进行交互,并通过动态加权方式细化文本特征,从而获得语义更加丰富的场景提示表示。第二阶段,提出提示引导的跨模态对齐融合网络,利用所学场景提示将红外与可见光特征映射到统一的共享嵌入空间。在此过程中,通过提示驱动特征对齐模块建立像素‑文本相似性矩阵,实现跨模态特征的精确对齐,从而获得语义一致性与细节保真的融合结果。