基于层次化情感分布的语音合成方法、装置、设备及介质

申请号：CN202411387284

申请日期：2024-09-30

公开号：CN119207372B

公开日期：2025-11-28

类型：发明专利

摘要

本发明涉及人工智能技术领域，公开了一种基于层次化情感分布的语音合成方法，通过获取音频数据和文本转录，分割音频为音素、词语和句子级别的语音单元，提取音高、语速和节奏等声学特征，利用预训练模型生成情感分布向量，处理文本转录生成文本嵌入信息，将情感分布向量、文本嵌入信息和声学特征相结合，通过变量转换器生成韵律特征，解码器基于韵律特征生成梅尔频谱图，声码器将梅尔频谱图转换为时域音频信号并输出。本发明通过层次化地分割音频数据为音素、词语和句子级别，并结合声学特征、情感分布向量和文本嵌入信息，利用变量转换器生成韵律特征，从而实现对情感表达的精细控制，显著提高了语音合成的自然度和情感表现力。

技术关键词

声学特征语音时域音频信号韵律特征文本情感识别模型声码器情感类别情感特征词语解码器变量注意力机制数据基频轮廓转换器模块计算机设备对齐工具