一种基于扩散模型进行文本引导可控人像生成方法及系统

申请号：CN202411517967

申请日期：2024-10-29

公开号：CN119444933B

公开日期：2025-08-19

类型：发明专利

摘要

本发明公开了一种基于扩散模型进行文本引导可控人像生成方法及系统，首先将文本提示T输入到CLIP模型中，获取文本嵌入vp；然后基于文本嵌入vp，利用文本姿态生成模型G，提取文本引导条件所指定的姿态引导图；接着利用面部微调模型M，细化姿态引导图的面部关键点的初始估计，输出姿态引导图P；最后给定一张输入图片x0，基于姿态引导图P，利用姿态人像编辑模型，生成编辑后的人像。本发明提出的模型在DF‑PASS数据集上的实验结果验证了该模型的有效性，本发明能有效提高生成图像的灵活性和多样性，减少图像局部模糊，增强图像保真度。

技术关键词

人像生成方法面部关键点文本去噪模型噪声预测编辑图像线性坐标样本生成系统图片处理器纹理存储装置分类器训练集