基于层次化情感分布的语音合成方法、装置、设备及介质
申请号:CN202411387284
申请日期:2024-09-30
公开号:CN119207372B
公开日期:2025-11-28
类型:发明专利
摘要
本发明涉及人工智能技术领域,公开了一种基于层次化情感分布的语音合成方法,通过获取音频数据和文本转录,分割音频为音素、词语和句子级别的语音单元,提取音高、语速和节奏等声学特征,利用预训练模型生成情感分布向量,处理文本转录生成文本嵌入信息,将情感分布向量、文本嵌入信息和声学特征相结合,通过变量转换器生成韵律特征,解码器基于韵律特征生成梅尔频谱图,声码器将梅尔频谱图转换为时域音频信号并输出。本发明通过层次化地分割音频数据为音素、词语和句子级别,并结合声学特征、情感分布向量和文本嵌入信息,利用变量转换器生成韵律特征,从而实现对情感表达的精细控制,显著提高了语音合成的自然度和情感表现力。
技术关键词
声学特征
语音
时域音频信号
韵律特征
文本
情感识别模型
声码器
情感类别
情感特征
词语
解码器
变量
注意力机制
数据
基频轮廓
转换器模块
计算机设备
对齐工具