语音合成样本集的构造、语音合成模型的训练方法及装置

申请号：CN202510372614

申请日期：2025-03-27

公开号：CN119889278A

公开日期：2025-04-25

类型：发明专利

摘要

本说明书实施例披露一种语音合成样本集的构造、语音合成模型的训练方法及装置。其中，构造方法包括：首先，针对多条语音片段中任意的第一语音片段，获取对其进行标注处理而得到的对应于多项语音风格特征的多个第一标注值；接着，将所述多个第一标注值组合为第一语音风格描述文本；然后，将所述第一语音片段对应的第一语音识别文本作为待合成文本，与所述第一语音风格描述文本一并作为样本特征，并将所述第一语音片段作为标签语音，构造第一语音合成样本，归入语音合成样本集。进一步，可以基于构造出的语音合成样本集训练语音合成模型，使得训练好的模型支持使用描述语音风格特征的文本控制合成语音的风格，而无需使用说话人的嵌入表征作为输入。

技术关键词

语音识别文本样本风格机器学习模型标签大语言模型数据获取模块人声训练装置计算机界面可读存储介质存储器模板处理器年龄切片