端到端的语音合成方法、装置、设备及介质

申请号：CN202410841365

申请日期：2024-06-26

公开号：CN118645084A

公开日期：2024-09-13

类型：发明专利

摘要

本发明公开了一种端到端的语音合成方法，该方法包括获取待转换文本以及音频数据，并将待转换文本和音频数据输入到语音合成模型中；语音合成模型包括情感打分器、文本编码器、随机时间预测器、单调对齐搜索和合成解码器；通过情感打分器对音频数据进行情感识别，得到情感强度；通过文本编码器对待转换文本和情感强度进行特征提取，得到文本特征；通过随机时间预测器对文本特征进行持续时间预测，得到音素持续时间分布；通过单调对齐搜索对音素持续时间分布和所述文本特征进行特征对齐，得到对齐特征；通过合成解码器对对齐特征进行语音合成，得到目标语音数据。本发明实现了在语音合成中增加情感强度的表达，使得语音合成的效果更佳。

技术关键词

转换文本文本编码器语音解码器上采样音频打分器强度注意力动态规划算法数据输入模块可读存储介质特征提取模块处理单元对齐模块处理器编码模块计算机设备