模型训练、语音生成方法、装置、设备及介质

申请号：CN202410814367

申请日期：2024-06-21

公开号：CN118942447A

公开日期：2024-11-12

类型：发明专利

摘要

本发明公开了模型训练、语音生成方法、装置、设备及介质。方法包括：根据目标文本对应的音素特征表示与目标对象声音的嵌入表示，生成携带有目标对象声音特性的先验音素特征分布参数；将目标对象声音的嵌入表示和先验音素特征分布参数输入到第一模型进行一致性知识蒸馏训练，得到第二模型；其中，第二模型从第一模型学习到生成融合目标对象声音特性预测语音的能力。在训练过程中，将目标对象嵌入输入到不同模型中，从而实现整体提升模型输出的语音信息的自然语言表达能力，使得语言信息能够更加准确的体现出目标对象声音特性。此外，采用知识蒸馏方式训练得到第二模型，从而能够有效提升训练效率以及后续模型应用过程中语音生成效率。

技术关键词

对象语音生成方法参数校正蒸馏文本噪声信息模型训练装置模型训练方法索引整体提升样本编码器生成装置程序轨迹自然语言