摘要
本公开涉及语音合成方法和装置、电子设备、存储介质与程序产品,所述方法包括:获取源视频的源语种字幕文本对应的源语种配音音频,以及源语种字幕文本所翻译成的目标语种字幕文本;利用情绪提取器从源语种配音音频中提取音频情绪特征,音频情绪特征表征源语种配音音频所表达的情绪;将目标语种字幕文本转换成音素序列,并利用文本编码器对音素序列进行编码,得到文本编码特征;将音频情绪特征与文本编码特征进行融合,得到情绪文本特征;利用解码器基于情绪文本特征,生成目标语种音频,所述目标语种音频用于作为源视频在目标语种下的配音音频。由此,能够自动高效地生成带有源配音音频情绪的高质量目标语种音频,成本低且效率高。