一种多模态融合驱动下情感感知增强的TTS语音合成方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种多模态融合驱动下情感感知增强的TTS语音合成方法
申请号:CN202510980372
申请日期:2025-07-16
公开号:CN120766652A
公开日期:2025-10-10
类型:发明专利
摘要
本申请提供了一种多模态融合驱动下情感感知增强的TTS语音合成方法,包括如下步骤:S1:进行多模态数据的采集和预处理,其中,多模态数据包括文本数据、语音数据、面部表情数据;S2:情感特征提取与分析;S3:情感感知语音合成模型训练;S4:语音合成与后处理;S5:进行模型评估与优化;本发明通过采集和分析文本、语音、面部表情等多模态数据,能够更全面、准确地捕捉情感特征,多模态融合网络与协同注意力机制的运用,充分挖掘了不同模态间的互补信息,使得合成语音的情感表达更贴近真实情感,极大地提升了情感感知的精准度。
技术关键词
生成语音 多模态 情感类别 自然语言文本 语音特征 深度网络模型 情感分类器 双向长短期记忆网络 注意力机制 情感特征 多层感知器 面部 自动语音识别系统 数据 三维卷积神经网络 语义解析技术 频谱特征