基于自注意力机制的多通道音频处理的实时降噪方法

申请号：CN202510340100

申请日期：2025-03-21

公开号：CN120183427A

公开日期：2025-06-20

类型：发明专利

摘要

本发明提出一种基于自注意力机制的多通道音频处理的实时降噪方法，该方法包括：对每一预处理后的音频数据分别进行短时傅里叶变换，得到每一帧信号的频谱，并对频谱的幅度取对数，得到每一音频数据对应的语谱图，并进一步得到初始多通道语谱图；根据各类型噪音对应的标准语谱图，与初始多通道语谱图进行匹配，根据匹配结果对初始多通道语谱图进行优化，得到优化后的多通道语谱图；将优化后的多通道语谱图输入到基于稀疏矩阵的多头自注意力机制降噪模型中，得到降噪后的多通道语谱图；根据降噪后的多通道语谱图，得到降噪后音频信号。本发明对实时场景下采集的音频数据进行降噪处理，有效提高音频数据的降噪效果，以提高在线客服系统的准确性。

技术关键词

语谱图多通道注意力机制降噪方法短时傅里叶变换降噪模型在线客服系统时域音频信号线性变换矩阵场景融合特征前馈神经网络数据加权特征