基于大模型的多通道语音信号融合与增强方法、装置及电子设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于大模型的多通道语音信号融合与增强方法、装置及电子设备
申请号:CN202511313342
申请日期:2025-09-15
公开号:CN120954421A
公开日期:2025-11-14
类型:发明专利
摘要
本发明提供了一种基于大模型的多通道语音信号融合与增强方法、装置及电子设备,涉及语音数据处理技术领域,包括:获取多通道语音信号;对多通道语音信号的每个通道信号进行时频转换,并提取得到多模态特征;将多模态特征输入混合编码器,通过多头注意力机制与门控循环单元融合通道间依赖关系,输出融合特征;将融合特征输入复数域解耦网络,分离为有效语音数据与无效语音数据;基于有效语音数据重构增强频谱,结合原始相位执行逆短时傅里叶变换,生成初始增强语音数据;对无效语音数据进行非线性抑制,得到抑制后噪声数据;将增强语音数据与抑制后噪声数据合成,输出增强语音数据。本发明,综合了提升语音质量、实时性与能效表现。
技术关键词
多通道 噪声功率谱估计 噪声数据 多模态特征 短时傅里叶变换 混合编码器 多头注意力机制 融合特征 信号 语音数据处理技术 门控循环单元网络 稀疏编码特征 卷积长短期记忆 存储计算机可执行指令 麦克风阵列采集 声学反射板
系统为您推荐了相关专利信息
钻孔 实时监控系统 图像块特征提取 监控图像数据 视觉
漂移预测方法 海洋 校正器 动力 时间卷积网络
萃取提纯方法 溶剂萃取装置 温度控制单元 独立温控单元 分离器
贝叶斯神经网络 基线 小区间 样本 神经网络模型训练
智能识别方法 文本编码器 图像编码器 分类识别模型 多模态特征