摘要
本发明公开了模型训练、语音生成方法、装置、设备及介质。方法包括:根据目标文本对应的音素特征表示与目标对象声音的嵌入表示,生成携带有目标对象声音特性的先验音素特征分布参数;将目标对象声音的嵌入表示和先验音素特征分布参数输入到第一模型进行一致性知识蒸馏训练,得到第二模型;其中,第二模型从第一模型学习到生成融合目标对象声音特性预测语音的能力。在训练过程中,将目标对象嵌入输入到不同模型中,从而实现整体提升模型输出的语音信息的自然语言表达能力,使得语言信息能够更加准确的体现出目标对象声音特性。此外,采用知识蒸馏方式训练得到第二模型,从而能够有效提升训练效率以及后续模型应用过程中语音生成效率。