摘要
本发明提供一种语音合成方法和装置,涉及语音处理技术领域,方法包括:获取目标图像和说话文稿,并将目标图像和说话文稿输入至预训练的语音合成模型,得到目标合成语音;其中,目标图像包含多个视觉信息,目标合成语音包含多个声学特征,一个视觉信息对应至少一个声学特征;语音合成模型为基于多模态数据集进行训练得到,多模态数据集为对目标数据集进行模态增强得到。通过本发明提供的方法,对现有语音数据集进行模态增强构建多模态数据集,解决数据集稀缺的问题;根据静态图像中的视觉信息与语音音频中的声学特征之间的一一对应关系,基于通过多模态数据集训练得到的语音合成模型,使合成的目标合成语音具有更细粒度的语音风格。