摘要
本申请提供了一种多模态融合的动态虚拟试衣视频生成方法、装置,有效地解决了虚拟试衣技术存在的静态生成缺乏动态真实性以及多模态融合效果不佳的问题。该方法包括:获取待合成服装图片、待合成模特图片以及目标文本,基于待合成服装图片和待合成模特图片生成目标图片;从所述目标图片提取多种服装特征,并编码所述多种服装特征与所述目标文本得到多种服装特征向量与目标文本语义向量;映射所述多种服装特征向量与目标文本语义向量至潜空间,以得到融合特征向量;基于所述融合特征向量分层生成对应的视频帧序列,以基于所述视频帧序列生成模特身着待合成服装执行所述指定动作时的服装动态展示视频。