基于多模态控制的可控人物图像生成方法、系统及产品

申请号：CN202510665628

申请日期：2025-05-22

公开号：CN120635230A

公开日期：2025-09-12

类型：发明专利

摘要

本发明公开了一种基于多模态控制的可控人物图像生成方法、系统及产品，首先获取多模态输入数据，包括文本数据、姿势图像数据和外观图像数据；然后将模态输入数据转换为特征嵌入，通过跨模态注意力机制，将这些不同模态的条件信息结合，分别生成统一的姿势条件嵌入和统一的外观条件嵌入；接着将姿势条件嵌入和外观条件嵌入输入基于transformer的潜在扩散模型中进行推理，获得空间特征；最后将获得的空间特征通过VAE解码器生成最终图像。本发明将多模态输入和潜伏扩散模型的结合，实现了在复杂条件下的对生成图像的精确控制，能够生成高质量、符合用户需求的人物图像，极大地扩大了人物图像生成技术在虚拟试穿、数字内容创作和娱乐等领域的适用范围。

技术关键词

人物图像生成方法多模态文本编码器图像编码器编码模块全局平均池化计算机程序指令堆叠模块姿势控制数据特征提取模块图像生成技术图像生成系统噪声预测器注意力机制优化网络参数