视频语音生成模型的训练方法、视频合成方法及相关设备

申请号：CN202410975092

申请日期：2024-07-19

公开号：CN119028359A

公开日期：2024-11-26

类型：发明专利

摘要

本发明公开了视频语音生成模型的训练方法、视频合成方法及相关设备，训练方法包括：构建音频到音频的第一模型以及视频到音频的第二模型，第一模型中的第一音频解码器和第二模型中的第二音频解码器的结构相同；采集大量单声道数据对第一模型进行预训练，保存第一模型完成预训练时第一音频解码器的参数；根据第一音频解码器的参数对第二音频解码器进行初始化；将目标场景下采集的视频数据集输入到初始化的第二模型中进行训练，直到满足预设收敛条件则完成训练，得到视频语音生成模型。通过预训练音频解码器对模型进行初始化，使模型在保留预训练语音特征的同时还可适应目标场景数据集的特点，提高视频语音合成中生成语音的质量，从而提高合成效果。

技术关键词

语音生成模型音频解码器非易失性计算机可读存储介质视频帧编码器音频编码器语音特征计算机可执行指令人脸特征视觉特征参数数据处理器场景视频编码器生成语音模块身份