摘要
本发明提供一种视频生成方法、装置、电子设备及存储介质,该方法包括获取参考帧视频和待转换音频;动态提取参考帧视频中的多个图像参考帧,并输入视频生成模型,推理生成待转换音频的多个唇形生成图像;将各唇形生成图像分别与对应的图像参考帧融合,得到多个初始生成帧;高清化处理各初始生成帧,得到多个图像生成帧;检测各图像生成帧的唇形对齐偏差,确定目标参考帧,并根据目标参考帧调整视频生成模型的唇形生成参数,以使重塑的唇形对齐对应的音频数据帧,生成目标视频;本申请通过高清化处理初始生成帧可提升视觉显示效果,以适配高清显示需求,并通过目标参考帧反向调整唇形生成参数后重塑唇形,减少了唇形不协调对视频质量的影响。