摘要
本公开关于一种语音合成方法、装置、电子设备及存储介质,该方法包括:获取待合成文本和提示语音;基于所述待合成文本的音素序列和所述提示语音进行时长预测,得到目标合成语音的播放时长信息;基于所述播放时长信息调整所述音素序列的序列长度,得到目标音素序列;所述目标音素序列的序列长度与所述播放时长信息相匹配;对所述目标音素序列进行特征提取,基于所述特征提取的结果和先验分布生成目标语义特征;基于所述目标语义特征和所述先验分布生成目标声学特征,基于所述目标声学特征生成所述目标合成语音,本公开提高了语音合成速度,且合成语音的自然度高、字错误率低,大大提升了合成语音的质量。