基于多模态控制的可控人物图像生成方法、系统及产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态控制的可控人物图像生成方法、系统及产品
申请号:CN202510665628
申请日期:2025-05-22
公开号:CN120635230A
公开日期:2025-09-12
类型:发明专利
摘要
本发明公开了一种基于多模态控制的可控人物图像生成方法、系统及产品,首先获取多模态输入数据,包括文本数据、姿势图像数据和外观图像数据;然后将模态输入数据转换为特征嵌入,通过跨模态注意力机制,将这些不同模态的条件信息结合,分别生成统一的姿势条件嵌入和统一的外观条件嵌入;接着将姿势条件嵌入和外观条件嵌入输入基于transformer的潜在扩散模型中进行推理,获得空间特征;最后将获得的空间特征通过VAE解码器生成最终图像。本发明将多模态输入和潜伏扩散模型的结合,实现了在复杂条件下的对生成图像的精确控制,能够生成高质量、符合用户需求的人物图像,极大地扩大了人物图像生成技术在虚拟试穿、数字内容创作和娱乐等领域的适用范围。
技术关键词
人物图像生成方法 多模态 文本编码器 图像编码器 编码模块 全局平均池化 计算机程序指令 堆叠模块 姿势控制 数据 特征提取模块 图像生成技术 图像生成系统 噪声预测器 注意力机制 优化网络参数