一种基于时频包络引导去噪扩散过程的语音增强方法和装置

申请号：CN202510861224

申请日期：2025-06-25

公开号：CN120708639A

公开日期：2025-09-26

类型：发明专利

摘要

本申请提供一种基于时频包络引导去噪扩散过程的语音增强方法和装置，包括通过神经网络获取带噪语音信号中纯净语音信号幅度谱的估计；基于纯净语音信号幅度谱的估计，提取纯净语音信号的时频包络；基于纯净语音信号的时频包络，构建纯净语音信号的包络调制噪声；包络调制噪声为基于纯净语音信号的时频包络特征，对高斯白噪声进行各项异性噪声调制获得；基于纯净语音信号的包络调制噪声，对扩散过程的扩散路径进行各向异性调整，通过扩散模型获得纯净语音信号复数谱的估计。本发明充分利用语音信号的时频特征指导扩散过程，在频域对带噪语音信号的复数谱进行各向异性扩散建模，考虑语音信号在不同时频位置的差异，有效恢复语音关键频率成分。

技术关键词

带噪语音信号包络协方差矩阵噪声强度异性元素短时傅里叶变换参数模型训练模块计算机存储介质噪声样本重构模块声道谱估计可读存储介质