语音合成方法和装置

申请号：CN202510840567

申请日期：2025-06-20

公开号：CN120564695A

公开日期：2025-08-29

类型：发明专利

摘要

本申请实施例提供了一种语音合成方法、装置、计算机设备、计算机可读存储介质、计算机程序产品，涉及人工智能技术领域。该语音合成方法包括：确定目标文本和目标词元数量；将所述目标文本和所述目标词元数量输入到预先训练好的自回归语音合成大模型，以通过所述自回归语音合成大模型生成目标语音；所述自回归语音合成大模型通过调整参考音频语速得到的样本训练得到；其中，所述目标语音与所述目标文本对应；所述目标语音包括与所述目标词元数量相匹配的语音词元，以控制所述目标语音的输出时长。本申请实施例的技术方案通过直接指定自回归语音合成大模型需要生成的词元数量，可以生成长度确定的语音，从而精准控制合成语音的时长。

技术关键词

语音音频文本声纹特征矩阵序列计算机程序产品可读存储介质计算机设备对象人工智能技术处理器通信分词指令样本数据存储器模块