一种基于轻量化双路径Transformer网络的多人声分离方法
申请号:CN202510774660
申请日期:2025-06-11
公开号:CN120877761A
公开日期:2025-10-31
类型:发明专利
摘要
本发明公开了一种基于轻量化双路径Transformer网络的多人声分离方法,包括采集音频多人声数据,预处理后构成数据集;构建双路径Transformer网络模型DPTNet,引入递归神经网络对双路径Transformer网络模型DPTNet进行优化;对双路径网络模型DPTNet进行训练,基于训练后的模型进行工程化部署。本发明有利于获得更高质量的音频指纹识别能力,声源分离能力、语音增强的功能,可利用于对声源位置进行跟踪和定位,帮助定位和跟踪相关的应用以及可以扩展到医学领域,可以用于心音分割,即识别心脏的特定信号,帮助诊断心血管等医学问题,具备技术创新性与实际应用价值。
技术关键词
注意力
人声
递归神经网络
attention机制
矩阵
解码器
变压器
音频指纹识别
卷积模块
编码器特征
混合波形
识别心脏
数据
语音
数学
双人