一种基于轻量化双路径Transformer网络的多人声分离方法

申请号：CN202510774660

申请日期：2025-06-11

公开号：CN120877761A

公开日期：2025-10-31

类型：发明专利

摘要

本发明公开了一种基于轻量化双路径Transformer网络的多人声分离方法，包括采集音频多人声数据，预处理后构成数据集；构建双路径Transformer网络模型DPTNet，引入递归神经网络对双路径Transformer网络模型DPTNet进行优化；对双路径网络模型DPTNet进行训练，基于训练后的模型进行工程化部署。本发明有利于获得更高质量的音频指纹识别能力，声源分离能力、语音增强的功能，可利用于对声源位置进行跟踪和定位，帮助定位和跟踪相关的应用以及可以扩展到医学领域，可以用于心音分割，即识别心脏的特定信号，帮助诊断心血管等医学问题，具备技术创新性与实际应用价值。

技术关键词

注意力人声递归神经网络 attention机制矩阵解码器变压器音频指纹识别卷积模块编码器特征混合波形识别心脏数据语音数学双人