端到端的语音合成方法、装置、计算机设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
端到端的语音合成方法、装置、计算机设备及存储介质
申请号:CN202510654448
申请日期:2025-05-20
公开号:CN120526753A
公开日期:2025-08-22
类型:发明专利
摘要
本发明可应用于智慧医疗和金融领域,公开了一种端到端的语音合成方法、装置、计算机设备及存储介质,包括:获取待合成文本和参考音频;对所述待合成文本进行特征提取,得到包含上下文信息的文本特征;对所述参考音频进行特征提取,得到离散语音特征;基于神经网络模型构建所述文本特征和所述离散语音特征的对齐关系,生成当前语音帧的概率分布;基于声码器对所述当前语音帧的概率分布进行处理,得到所述待合成文本对应的语音波形,从而得到合成语音。本发明端到端的语音合成装置可从文本直接生成波形,简化了生成流程,可显著提升实时性,且通过神经网络模型显式学习文本与语音的对齐关系,不需要复杂的对齐操作,可进一步减少延迟。
技术关键词
语音特征 神经网络模型构建 声码器 文本编码器 音频 特征提取模块 计算机设备 波形 关系 GAN模型 语音编码器 可读存储介质 处理器 存储器