视频语音生成模型的训练方法、视频合成方法及相关设备
申请号:CN202410975092
申请日期:2024-07-19
公开号:CN119028359A
公开日期:2024-11-26
类型:发明专利
摘要
本发明公开了视频语音生成模型的训练方法、视频合成方法及相关设备,训练方法包括:构建音频到音频的第一模型以及视频到音频的第二模型,第一模型中的第一音频解码器和第二模型中的第二音频解码器的结构相同;采集大量单声道数据对第一模型进行预训练,保存第一模型完成预训练时第一音频解码器的参数;根据第一音频解码器的参数对第二音频解码器进行初始化;将目标场景下采集的视频数据集输入到初始化的第二模型中进行训练,直到满足预设收敛条件则完成训练,得到视频语音生成模型。通过预训练音频解码器对模型进行初始化,使模型在保留预训练语音特征的同时还可适应目标场景数据集的特点,提高视频语音合成中生成语音的质量,从而提高合成效果。
技术关键词
语音生成模型
音频解码器
非易失性计算机可读存储介质
视频帧编码器
音频编码器
语音特征
计算机可执行指令
人脸特征
视觉特征
参数
数据
处理器
场景
视频编码器
生成语音
模块
身份