一种多模态融合驱动下情感感知增强的TTS语音合成方法
申请号:CN202510980372
申请日期:2025-07-16
公开号:CN120766652A
公开日期:2025-10-10
类型:发明专利
摘要
本申请提供了一种多模态融合驱动下情感感知增强的TTS语音合成方法,包括如下步骤:S1:进行多模态数据的采集和预处理,其中,多模态数据包括文本数据、语音数据、面部表情数据;S2:情感特征提取与分析;S3:情感感知语音合成模型训练;S4:语音合成与后处理;S5:进行模型评估与优化;本发明通过采集和分析文本、语音、面部表情等多模态数据,能够更全面、准确地捕捉情感特征,多模态融合网络与协同注意力机制的运用,充分挖掘了不同模态间的互补信息,使得合成语音的情感表达更贴近真实情感,极大地提升了情感感知的精准度。
技术关键词
生成语音
多模态
情感类别
自然语言文本
语音特征
深度网络模型
情感分类器
双向长短期记忆网络
注意力机制
情感特征
多层感知器
面部
自动语音识别系统
数据
三维卷积神经网络
语义解析技术
频谱特征