摘要
本发明公开了一种基于多模态控制的可控人物图像生成方法、系统及产品,首先获取多模态输入数据,包括文本数据、姿势图像数据和外观图像数据;然后将模态输入数据转换为特征嵌入,通过跨模态注意力机制,将这些不同模态的条件信息结合,分别生成统一的姿势条件嵌入和统一的外观条件嵌入;接着将姿势条件嵌入和外观条件嵌入输入基于transformer的潜在扩散模型中进行推理,获得空间特征;最后将获得的空间特征通过VAE解码器生成最终图像。本发明将多模态输入和潜伏扩散模型的结合,实现了在复杂条件下的对生成图像的精确控制,能够生成高质量、符合用户需求的人物图像,极大地扩大了人物图像生成技术在虚拟试穿、数字内容创作和娱乐等领域的适用范围。