摘要
本发明涉及一种身份保持图像的生成方法与终端,接收用户传入的目标人物图像以及文本提示信息;对目标人物图像进行面部特征和身体全局特征的分层提取,并进行特征融合生成融合特征;根据文本提示信息生成文本嵌入特征;将文本嵌入特征、面部特征和融合特征输入预训练的扩散模型,生成身份保持图像;其中,融合特征仅注入扩散模型中对身份保留作用最大的身份敏感层,面部特征仅注入身份敏感层外的其它层;本发明通过分层提取面部与身体特征,并采用选择性注入策略,将核心身份特征限定于关键层,在保证面部和身体同步保持的基础上,避免过度干扰文本驱动的细节生成,解决文本控制能力受限问题;并实现身份保真、身体协调与文本语义的高效平衡。