一种基于多方协同注意力机制的主题图像编辑与生成方法及其系统

申请号：CN202411509319

申请日期：2024-10-28

公开号：CN119444637A

公开日期：2025-02-14

类型：发明专利

摘要

本申请公开了一种基于多方协同注意力机制的主题图像编辑与生成方法，方法包括：输入多模态指令至主题定位模块，定位作用区域，并在作用区域内提取主题图像和目标图像；将主题图像及目标图像输入预训练的深度学习模型，在自注意层内执行自注意力局部查询，实现整合源图像的背景和主题图像的前景；并执行自注意力全局注入，实现目标图像的细节增强；结合自注意力局部查询及自注意力全局注入的结果，输出编辑和生成的目标图像。本发明极大减少主题类模型生成一致性图像所需的时间，促进其在更广范围内的实际应用。

技术关键词

协同注意力图像生成方法深度学习模型定位模块机制多模态编辑生成系统定位框主题特征控制模块处理器矩阵指令重构可读存储介质存储器