基于扩散模型的文生图及扩散模型训练方法、装置及设备
申请号:CN202411657510
申请日期:2024-11-19
公开号:CN119169434B
公开日期:2025-07-15
类型:发明专利
摘要
本申请公开了一种基于扩散模型的文生图及扩散模型训练方法、装置及设备,包括:获取样本图片、实例的标注框、局部文本描述及全局文本描述;通过扩散过程加噪;选择训练样本图片划分多个切块;利用扩散模型的交叉注意力模块进行交互注意力计算,得到局部文本描述/全局文本描述对各切块的注意力分数;确定该切块所属的文本描述为所属实例的局部文本描述或为空;将训练样本图片的多个切块、各切块所属的文本描述、全局文本描述、各切块所属文本描述对该切块的注意力分数输入扩散模型特征提取,对切块特征图去噪并拼接并扩散模型参数调整。本申请提出了可对多个目标实例的进行精确控制的文生图模型,生成的图像质量更高,内容更丰富,且更加客制化。
技术关键词
切块
文本
交互注意力
图片
深度残差网络
矩阵
模型训练方法
编码
样本
拼接模块
计算机存储介质
模型训练设备
处理器通信
解码器
模型训练装置
参数
模型训练模块