摘要
本发明属于计算机视觉领域,具体涉及一种基于扩散模型的一致性身份图片生成方法,包括:采用多模态大语言模型生成最优的成对数据,其中成对数据包括文本数据和对应的图像数据;采用文本编码器对文本数据进行编码处理,得到文本嵌入向量;采用图像编码器对图像数据进行处理,得到图像嵌入向量;将文本嵌入向量和图像嵌入向量输入到MLP模块中将进入融合,得到融合嵌入向量;将所有的融合嵌入向量进行堆叠,并采用交叉注意力层对堆叠的融合嵌入向量进行处理,得到深层次特征;对深层次特征进行多阶段调整,得到一致性身份图片;本申请采用由粗到细的多阶段微调方法,逐步优化生成图像的视觉质量。