语音到音频生成系统、训练方法、电子设备和存储介质

申请号：CN202411463498

申请日期：2024-10-18

公开号：CN119339710A

公开日期：2025-01-21

类型：发明专利

摘要

本申请实施例公开语音到音频生成系统、训练方法、电子设备和存储介质，其中，系统包括：语音编码器，用于提取输入语音中与声音事件相关的特征；桥接网络，用于将所述与声音事件相关的特征映射到语义特征，其中，所述语义特征用于指导音频生成模块生成音频；以及音频生成模块，包括潜在扩散模型、变分自编码器和声码器，其中，所述潜在扩散模型用于从所述输入语音中生成音频的潜在表示，所述变分自编码器用于基于所述音频的潜在表示重建频谱图，所述声码器用于将频谱图转换成波形。

技术关键词

音频语音编码器生成系统语义特征声码器电子设备多层感知机网络处理器通信模块波形存储器解码器指令噪声