摘要
本申请实施例提供一种语音生成方法、设备、存储介质及程序产品。在该方法中,可获取文本,将模型提示词和文本输入到标签生成模型,在模型提示词的引导下,生成多个文本片段的语音参数标签;将多个文本片段以及各自的语音参数标签输入语音生成模型,基于多个文本片段以及各自的语音参数标签生成多个目标语音片段,从而拼接得到文本对应的目标语音。通过这种方式,可基于标签生成模型和模型提示词较为准确地生成文本片段的语音参数标签,并基于语音生成模型和语音参数标签较为准确地进行语音生成,生成的目标语音的每个语音片段具有语音参数标签要求的语速、音量和/或停顿时长,因而更加自然,与文本的适配度更高。