基于多模态情感融合的端到端语音合成方法、装置和设备

申请号：CN202510688331

申请日期：2025-05-27

公开号：CN120636363A

公开日期：2025-09-12

类型：发明专利

摘要

本申请实施例提供一种基于多模态情感融合的端到端语音合成方法、装置和设备。应用于语音合成技术领域，该方法通过文本编码器提取文本特征；通过声学编码器提声学特征；利用双重注意力机制动态分配文本特征和声学特征的交互权重，增强情感信息与语音信息的协同性；利用双向长短期记忆网络、时间卷积网络、自注意力机制和指数平滑技术生成情感强度曲线；将融合特征和情感强度曲线输入到方差适配器进行特征增强与扩充，输出到梅尔解码器实现并行解码，得到合成语音的梅尔频谱；使用声码器将梅尔频谱特征映射为声音波形，生成最终的情感语音，提高了生成语音的情感表现力和自然度，并能够根据不同应用场景调整情感强度。

技术关键词

声学特征双向长短期记忆网络语音注意力机制融合特征时间卷积网络计算机执行指令文本编码器平滑技术多模态声码器控制模块强度音频适配器矩阵计算机存储介质