基于层次化情感分布的语音合成方法、装置、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于层次化情感分布的语音合成方法、装置、设备及介质
申请号:CN202411387284
申请日期:2024-09-30
公开号:CN119207372B
公开日期:2025-11-28
类型:发明专利
摘要
本发明涉及人工智能技术领域,公开了一种基于层次化情感分布的语音合成方法,通过获取音频数据和文本转录,分割音频为音素、词语和句子级别的语音单元,提取音高、语速和节奏等声学特征,利用预训练模型生成情感分布向量,处理文本转录生成文本嵌入信息,将情感分布向量、文本嵌入信息和声学特征相结合,通过变量转换器生成韵律特征,解码器基于韵律特征生成梅尔频谱图,声码器将梅尔频谱图转换为时域音频信号并输出。本发明通过层次化地分割音频数据为音素、词语和句子级别,并结合声学特征、情感分布向量和文本嵌入信息,利用变量转换器生成韵律特征,从而实现对情感表达的精细控制,显著提高了语音合成的自然度和情感表现力。
技术关键词
声学特征 语音 时域音频信号 韵律特征 文本 情感识别模型 声码器 情感类别 情感特征 词语 解码器 变量 注意力机制 数据 基频轮廓 转换器模块 计算机设备 对齐工具