基于多模态情感融合的端到端语音合成方法、装置和设备
申请号:CN202510688331
申请日期:2025-05-27
公开号:CN120636363A
公开日期:2025-09-12
类型:发明专利
摘要
本申请实施例提供一种基于多模态情感融合的端到端语音合成方法、装置和设备。应用于语音合成技术领域,该方法通过文本编码器提取文本特征;通过声学编码器提声学特征;利用双重注意力机制动态分配文本特征和声学特征的交互权重,增强情感信息与语音信息的协同性;利用双向长短期记忆网络、时间卷积网络、自注意力机制和指数平滑技术生成情感强度曲线;将融合特征和情感强度曲线输入到方差适配器进行特征增强与扩充,输出到梅尔解码器实现并行解码,得到合成语音的梅尔频谱;使用声码器将梅尔频谱特征映射为声音波形,生成最终的情感语音,提高了生成语音的情感表现力和自然度,并能够根据不同应用场景调整情感强度。
技术关键词
声学特征
双向长短期记忆网络
语音
注意力机制
融合特征
时间卷积网络
计算机执行指令
文本编码器
平滑技术
多模态
声码器
控制模块
强度
音频
适配器
矩阵
计算机存储介质