一种文本引导的生成图像编辑方法

申请号：CN202411728178

申请日期：2024-11-28

公开号：CN119579735A

公开日期：2025-03-07

类型：发明专利

摘要

本发明涉及生成图像编辑技术领域，提出了一种文本引导的生成图像编辑方法，首先，利用多模态预训练模型BLIP模型对给定的稳定扩散模型生成的图像进行多次推理生成对应的多个详细的文本描述；然后，使用ChatGPT对需要编辑的描述文本进行智能文本编辑，修改特定的视觉概念，以满足指导图像的具体编辑任务；接着，使用CLIP模型计算编辑前后的文本嵌入向量，以获取文本编辑的平均方向；然后，将文本编辑的平均方向加到原始的描述文本嵌入向量上，基于稳定扩散模型的交叉注意力机制来控制文本和图像对应关系，以精确控制图像的文本指导编辑过程，基于多个句子的平均语义方向不仅鲁棒，而且具有高度的隔离性。

技术关键词

图像编辑方法文本交叉注意力机制预训练模型图像编辑技术超参数多模态语义概念视觉关系策略阶段