基于门控注意力机制的语音合成方法、装置、设备及介质

申请号：CN202411485787

申请日期：2024-10-23

公开号：CN119314463B

公开日期：2025-12-02

类型：发明专利

摘要

本发明涉及人工智能技术领域和金融科技领域，公开了一种基于门控注意力机制的语音合成方法，通过获取文本数据和语音数据，文本数据通过文本编码器转换为文本符号序列，语音数据通过基于自监督学习模型训练的语音编码器提取语音特征，并将其量化为离散的语音符号序列；接着，文本符号序列与语音符号序列分别组织为文本序列和语音序列；通过初步对齐处理建立文本符号与语音符号的对应关系，门控注意力机制动态调整文本符号与语音符号之间的匹配程度，最后通过解码器生成最终的语音信号。本发明通通过自监督学习模型训练的语音编码器有效提升了语音特征的提取能力，尤其在缺少大量标注数据的场景中仍能从未标注数据中学习到有效的特征表示。

技术关键词

符号注意力机制语音编码器序列文本编码器语音特征监督学习模型输入解码器高维特征向量数据关系梅尔频率倒谱系数动态时间规整编码模块组织计算机设备