摘要
本发明涉及语音合成技术领域,提供了一种语音生成模型训练方法:获取样本数据集;通过预设训练模型中的语义特征模块对样本文本和样本语音进行语义特征识别,得到样本语义特征;通过声学特征模块对样本语音和样本语义特征进行声学特征识别,得到样本声学特征;通过声学解码模块对样本声学特征进行语音生成,得到预测生成语音;根据与同一样本文本对应的预测生成语音和样本语音,确定预测损失值;在预测损失值达到收敛条件时,将收敛之后的预设训练模型记录为语音生成模型。本发明应用于医疗问答场景或金融问答场景中。本发明通过语义特征模块和声学特征模块,实现了对语义特征和声学特征的条件分布的模拟,提高了训练时语音生成的效率。