一种多模态融合驱动下情感感知增强的TTS语音合成方法

申请号：CN202510980372

申请日期：2025-07-16

公开号：CN120766652A

公开日期：2025-10-10

类型：发明专利

摘要

本申请提供了一种多模态融合驱动下情感感知增强的TTS语音合成方法，包括如下步骤：S1：进行多模态数据的采集和预处理，其中，多模态数据包括文本数据、语音数据、面部表情数据；S2：情感特征提取与分析；S3：情感感知语音合成模型训练；S4：语音合成与后处理；S5：进行模型评估与优化；本发明通过采集和分析文本、语音、面部表情等多模态数据，能够更全面、准确地捕捉情感特征，多模态融合网络与协同注意力机制的运用，充分挖掘了不同模态间的互补信息，使得合成语音的情感表达更贴近真实情感，极大地提升了情感感知的精准度。

技术关键词

生成语音多模态情感类别自然语言文本语音特征深度网络模型情感分类器双向长短期记忆网络注意力机制情感特征多层感知器面部自动语音识别系统数据三维卷积神经网络语义解析技术频谱特征