一种语音合成方法和装置

申请号：CN202411000066

申请日期：2024-07-24

公开号：CN119152837B

公开日期：2025-09-19

类型：发明专利

摘要

本发明提供一种语音合成方法和装置，涉及语音处理技术领域，方法包括：获取目标图像和说话文稿，并将目标图像和说话文稿输入至预训练的语音合成模型，得到目标合成语音；其中，目标图像包含多个视觉信息，目标合成语音包含多个声学特征，一个视觉信息对应至少一个声学特征；语音合成模型为基于多模态数据集进行训练得到，多模态数据集为对目标数据集进行模态增强得到。通过本发明提供的方法，对现有语音数据集进行模态增强构建多模态数据集，解决数据集稀缺的问题；根据静态图像中的视觉信息与语音音频中的声学特征之间的一一对应关系，基于通过多模态数据集训练得到的语音合成模型，使合成的目标合成语音具有更细粒度的语音风格。

技术关键词

语音解码器声学特征多模态数据图像编码器转换器视觉表征学习非暂态计算机可读存储介质关键帧图像生成模型风格处理器计算机程序产品语音特征音频自然语言存储器