一种语音生成方法、设备、存储介质及程序产品

申请号：CN202411909219

申请日期：2024-12-23

公开号：CN119694293A

公开日期：2025-03-25

类型：发明专利

摘要

本申请实施例提供一种语音生成方法、设备、存储介质及程序产品。在该方法中，可获取文本，将模型提示词和文本输入到标签生成模型，在模型提示词的引导下，生成多个文本片段的语音参数标签；将多个文本片段以及各自的语音参数标签输入语音生成模型，基于多个文本片段以及各自的语音参数标签生成多个目标语音片段，从而拼接得到文本对应的目标语音。通过这种方式，可基于标签生成模型和模型提示词较为准确地生成文本片段的语音参数标签，并基于语音生成模型和语音参数标签较为准确地进行语音生成，生成的目标语音的每个语音片段具有语音参数标签要求的语速、音量和/或停顿时长，因而更加自然，与文本的适配度更高。

技术关键词

文本语音生成模型语音生成方法参数语义特征独立语义标签特征处理器表情特征计算机程序产品分段指令标记面部可读存储介质终端设备