摘要
本发明提供一种多源单图数字人生成方法、装置、设备及存储介质,涉及人工智能技术领域。该方法包括:获取待处理图像、获取驱动音频以及获取驱动视频;对所述待处理图像进行人脸检测处理,得到第一人脸图像;基于所述第一人脸图像和所述驱动音频,确定音频驱动结果;对所述驱动视频进行人脸检测处理,确定包含第二人脸图像的人脸视频;基于所述人脸视频和所述音频驱动结果进行融合处理,生成数字人的人脸图像视频。本发明实施例用以解决现有技术中生成的数字人脸部动作和说话音频不匹配,准确性较低的缺陷,实现通过结合待处理图像、驱动音频和驱动视频,能够生成音频和脸部动作具有高匹配度的单图数字人,且单图数字人具有多样性和灵活性。