语音合成方法、装置、存储介质及电子设备

申请号：CN202510425665

申请日期：2025-04-07

公开号：CN120164452A

公开日期：2025-06-17

类型：发明专利

摘要

本申请公开了一种语音合成方法、装置、存储介质及电子设备，涉及人工智能技术领域。其中方法包括：获取待处理文本以及所述待处理文本对应的嵌入向量；将所述待处理文本和所述待处理文本对应的嵌入向量一同输入至预设文本编码器中进行编码，得到所述待处理文本对应的文本向量；根据所述待处理文本对应的文本向量，利用预设时长预测大模型预测所述待处理文本中每个字符发音的持续时长；基于所述待处理文本中每个字符发音的持续时长以及所述待处理文本对应的文本向量，进行语音合成，得到所述待处理文本对应的语音信息。本申请能够提高文本发音的时长预测精度，保证合成语音的自然度。

技术关键词

样本发音字符文本编码器语音音频特征解码器多尺度音色特征音量调节系数电子设备上采样人工智能技术处理器标识注意力机制序列