语音生成模型训练方法、装置、设备及介质

申请号：CN202510499283

申请日期：2025-04-18

公开号：CN120452416A

公开日期：2025-08-08

类型：发明专利

摘要

本发明涉及语音合成技术领域，提供了一种语音生成模型训练方法：获取样本数据集；通过预设训练模型中的语义特征模块对样本文本和样本语音进行语义特征识别，得到样本语义特征；通过声学特征模块对样本语音和样本语义特征进行声学特征识别，得到样本声学特征；通过声学解码模块对样本声学特征进行语音生成，得到预测生成语音；根据与同一样本文本对应的预测生成语音和样本语音，确定预测损失值；在预测损失值达到收敛条件时，将收敛之后的预设训练模型记录为语音生成模型。本发明应用于医疗问答场景或金融问答场景中。本发明通过语义特征模块和声学特征模块，实现了对语义特征和声学特征的条件分布的模拟，提高了训练时语音生成的效率。

技术关键词

语音生成模型声学特征语义特征样本生成语音语音生成方法问答场景解码模块编码特征识别模块文本编码器可读存储介质数据获取模块处理器