基于多模态情感融合的端到端语音合成方法、装置和设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态情感融合的端到端语音合成方法、装置和设备
申请号:CN202510688331
申请日期:2025-05-27
公开号:CN120636363A
公开日期:2025-09-12
类型:发明专利
摘要
本申请实施例提供一种基于多模态情感融合的端到端语音合成方法、装置和设备。应用于语音合成技术领域,该方法通过文本编码器提取文本特征;通过声学编码器提声学特征;利用双重注意力机制动态分配文本特征和声学特征的交互权重,增强情感信息与语音信息的协同性;利用双向长短期记忆网络、时间卷积网络、自注意力机制和指数平滑技术生成情感强度曲线;将融合特征和情感强度曲线输入到方差适配器进行特征增强与扩充,输出到梅尔解码器实现并行解码,得到合成语音的梅尔频谱;使用声码器将梅尔频谱特征映射为声音波形,生成最终的情感语音,提高了生成语音的情感表现力和自然度,并能够根据不同应用场景调整情感强度。
技术关键词
声学特征 双向长短期记忆网络 语音 注意力机制 融合特征 时间卷积网络 计算机执行指令 文本编码器 平滑技术 多模态 声码器 控制模块 强度 音频 适配器 矩阵 计算机存储介质