目标跨模态表达辅助的遥感场景文本-图像生成方法

申请号：CN202411070980

申请日期：2024-08-06

公开号：CN118587327B

公开日期：2024-10-01

类型：发明专利

摘要

本发明属于图像信息处理技术领域，公开了一种目标跨模态表达辅助的遥感场景文本‑图像生成方法。本方法先利用预训练图像文本联合表达模型的跨模态特征关联能力，为目标图像条件自适应地匹配对应的文本模态表达，通过目标图像到目标文本的跨模态转化避免布局的不确定性对目标信息引入产生的干扰；再将目标文本特征与原文本条件特征进行集成，利用目标信息对文本条件进行修饰与扩充；最后经补充的文本特征作为控制条件引入图像生成流程，对生成图像进行调控。本发明在避免额外布局先验引入的同时，有效实现利用图像目标条件对生成图像中目标局部的针对性增强。

技术关键词

图像编码器文本编码器跨模态图像生成方法模态特征视觉特征缩放参数图像信息处理技术数据分布图像生成网络图像数据集合表征场景通道阶段多层感知机噪声