多源单图数字人生成方法、装置、设备及存储介质

申请号：CN202510667558

申请日期：2025-05-22

公开号：CN120747309A

公开日期：2025-10-03

类型：发明专利

摘要

本发明提供一种多源单图数字人生成方法、装置、设备及存储介质，涉及人工智能技术领域。该方法包括：获取待处理图像、获取驱动音频以及获取驱动视频；对所述待处理图像进行人脸检测处理，得到第一人脸图像；基于所述第一人脸图像和所述驱动音频，确定音频驱动结果；对所述驱动视频进行人脸检测处理，确定包含第二人脸图像的人脸视频；基于所述人脸视频和所述音频驱动结果进行融合处理，生成数字人的人脸图像视频。本发明实施例用以解决现有技术中生成的数字人脸部动作和说话音频不匹配，准确性较低的缺陷，实现通过结合待处理图像、驱动音频和驱动视频，能够生成音频和脸部动作具有高匹配度的单图数字人，且单图数字人具有多样性和灵活性。

技术关键词

视频生成方法图像人脸动作多尺度特征非暂态计算机可读存储介质三维人脸建模音频特征融合特征生成多尺度处理器人工智能技术计算机程序产品坐标面部光流场分辨率生成装置

系统为您推荐了相关专利信息

训练数据生成方法、图像数据的处理方法、装置及设备

训练数据生成方法图像字符文本资产

一种水轮机运维检修虚拟拆装培训云边协同装置

水轮机教学虚拟穿戴设备轨迹运维

基于云平台的定制化产品数据管理系统及方法

定制化产品编码向量数据管理方法云平台图像特征提取

一种基于输卵管解剖分段的医疗影像分析方法及设备

医疗影像分析方法腹腔镜图像生成解剖结构边缘检测算法分段

一种用于肾小球病理切片图像的细胞检测方法及系统

病理切片图像细胞检测方法细胞形态特征病变特征细胞检测系统