基于大模型的多通道语音信号融合与增强方法、装置及电子设备

申请号：CN202511313342

申请日期：2025-09-15

公开号：CN120954421A

公开日期：2025-11-14

类型：发明专利

摘要

本发明提供了一种基于大模型的多通道语音信号融合与增强方法、装置及电子设备，涉及语音数据处理技术领域，包括：获取多通道语音信号；对多通道语音信号的每个通道信号进行时频转换，并提取得到多模态特征；将多模态特征输入混合编码器，通过多头注意力机制与门控循环单元融合通道间依赖关系，输出融合特征；将融合特征输入复数域解耦网络，分离为有效语音数据与无效语音数据；基于有效语音数据重构增强频谱，结合原始相位执行逆短时傅里叶变换，生成初始增强语音数据；对无效语音数据进行非线性抑制，得到抑制后噪声数据；将增强语音数据与抑制后噪声数据合成，输出增强语音数据。本发明，综合了提升语音质量、实时性与能效表现。

技术关键词

多通道噪声功率谱估计噪声数据多模态特征短时傅里叶变换混合编码器多头注意力机制融合特征信号语音数据处理技术门控循环单元网络稀疏编码特征卷积长短期记忆存储计算机可执行指令麦克风阵列采集声学反射板