基于大模型的多通道语音信号融合与增强方法、装置及电子设备
申请号:CN202511313342
申请日期:2025-09-15
公开号:CN120954421A
公开日期:2025-11-14
类型:发明专利
摘要
本发明提供了一种基于大模型的多通道语音信号融合与增强方法、装置及电子设备,涉及语音数据处理技术领域,包括:获取多通道语音信号;对多通道语音信号的每个通道信号进行时频转换,并提取得到多模态特征;将多模态特征输入混合编码器,通过多头注意力机制与门控循环单元融合通道间依赖关系,输出融合特征;将融合特征输入复数域解耦网络,分离为有效语音数据与无效语音数据;基于有效语音数据重构增强频谱,结合原始相位执行逆短时傅里叶变换,生成初始增强语音数据;对无效语音数据进行非线性抑制,得到抑制后噪声数据;将增强语音数据与抑制后噪声数据合成,输出增强语音数据。本发明,综合了提升语音质量、实时性与能效表现。
技术关键词
多通道
噪声功率谱估计
噪声数据
多模态特征
短时傅里叶变换
混合编码器
多头注意力机制
融合特征
信号
语音数据处理技术
门控循环单元网络
稀疏编码特征
卷积长短期记忆
存储计算机可执行指令
麦克风阵列采集
声学反射板