肖像视频生成方法、装置及电子设备

申请号：CN202511494591

申请日期：2025-10-20

公开号：CN120956978A

公开日期：2025-11-14

类型：发明专利

摘要

本发明涉及肖像视频生成技术领域，提供一种肖像视频生成方法、装置及电子设备，获取音频信息、参考图像、用户指示和带噪声图像；调用预先训练好的视频生成模型，其中，视频生成模型包括参考网络和去噪网络，视频生成模型通过渐进聚焦训练策略训练得到；将参考图像输入至参考网络，得到参考网络输出的目标人物特征；基于用户指示、音频信息，得到与用户指示对应的3D系数；将3D系数、目标人物特征和带噪声图像输入至去噪网络，得到去噪网络输出的目标肖像视频，其中，目标肖像视频中目标人物的头部动作与用户指示相匹配。通过整合音频驱动与用户指令的协同控制，能够高效、准确地生成执行特定头部动作的肖像视频。

技术关键词

视频生成模型视频生成方法面部表情特征人脸模型噪声图像人物特征运动特征音频网络非暂态计算机可读存储介质训练样本集视频生成技术视频生成装置策略电子设备处理器计算机程序产品