摘要
本申请实施例提供了一种语音合成方法、装置、计算机设备、计算机可读存储介质、计算机程序产品,涉及人工智能技术领域。该语音合成方法包括:确定目标文本和目标词元数量;将所述目标文本和所述目标词元数量输入到预先训练好的自回归语音合成大模型,以通过所述自回归语音合成大模型生成目标语音;所述自回归语音合成大模型通过调整参考音频语速得到的样本训练得到;其中,所述目标语音与所述目标文本对应;所述目标语音包括与所述目标词元数量相匹配的语音词元,以控制所述目标语音的输出时长。本申请实施例的技术方案通过直接指定自回归语音合成大模型需要生成的词元数量,可以生成长度确定的语音,从而精准控制合成语音的时长。