一种文本引导的生成图像编辑方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种文本引导的生成图像编辑方法
申请号:CN202411728178
申请日期:2024-11-28
公开号:CN119579735A
公开日期:2025-03-07
类型:发明专利
摘要
本发明涉及生成图像编辑技术领域,提出了一种文本引导的生成图像编辑方法,首先,利用多模态预训练模型BLIP模型对给定的稳定扩散模型生成的图像进行多次推理生成对应的多个详细的文本描述;然后,使用ChatGPT对需要编辑的描述文本进行智能文本编辑,修改特定的视觉概念,以满足指导图像的具体编辑任务;接着,使用CLIP模型计算编辑前后的文本嵌入向量,以获取文本编辑的平均方向;然后,将文本编辑的平均方向加到原始的描述文本嵌入向量上,基于稳定扩散模型的交叉注意力机制来控制文本和图像对应关系,以精确控制图像的文本指导编辑过程,基于多个句子的平均语义方向不仅鲁棒,而且具有高度的隔离性。
技术关键词
图像编辑方法 文本 交叉注意力机制 预训练模型 图像编辑技术 超参数 多模态 语义 概念 视觉 关系 策略 阶段