摘要
本发明涉及肖像视频生成技术领域,提供一种肖像视频生成方法、装置及电子设备,获取音频信息、参考图像、用户指示和带噪声图像;调用预先训练好的视频生成模型,其中,视频生成模型包括参考网络和去噪网络,视频生成模型通过渐进聚焦训练策略训练得到;将参考图像输入至参考网络,得到参考网络输出的目标人物特征;基于用户指示、音频信息,得到与用户指示对应的3D系数;将3D系数、目标人物特征和带噪声图像输入至去噪网络,得到去噪网络输出的目标肖像视频,其中,目标肖像视频中目标人物的头部动作与用户指示相匹配。通过整合音频驱动与用户指令的协同控制,能够高效、准确地生成执行特定头部动作的肖像视频。