具有条件匹配流的语音合成方法、装置、设备及介质

申请号：CN202411691282

申请日期：2024-11-22

公开号：CN119517005A

公开日期：2025-02-25

类型：发明专利

摘要

本发明涉及人工智能，公开一种具有条件匹配流的语音合成方法、装置、设备及介质，包括：接收文本信息，将文本信息编码为高维隐向量，获得文本信息向量；根据文本信息和语音之间的对齐关系形成标签信息，预测文本信息与语音的声学特征之间的关系；根据文本信息向量于语音数据集中匹配获取对应的文本相关语音，根据高斯噪声、文本相关语音和时间步生成中间态语音，采用条件匹配流模型根据中间态语音和时间步进行噪声预测，获得预测噪声，计算输入的高斯噪声和预测噪声之间的损失，并根据预测噪声结合中间态语音提取获得文本相关语音的声学特征；采用声学解码器根据获得的文本相关语音的声学特征生成解码语音波形。提升语音合成质量。

技术关键词

声学特征噪声预测自动语音识别生成解码信息编码解码器关系波形解码语音文本编码器可读存储介质特征提取模块标签处理器计算机设备信号存储器