摘要
本发明涉及语音信号处理技术领域,具体提供一种与阵列几何无关的语音分离方法、装置及系统。该方法适用于多种麦克风阵列结构,采用虚拟麦克风估计机制生成增强空间信息密度的虚拟通道信号,并结合频谱–时间特征与空间方向特征,通过空间字典学习与注意力融合模块提取多模态表示。所提特征进一步输入分层双路径建模网络,在时间轴与频率轴上分别建模全局依赖关系,从而实现多说话人语音的高精度分离。所述系统具备良好的阵列结构自适应性,能够适应通道数变化与阵列形状差异,在远程会议、语音识别前端、车载语音处理等场景中均具有良好应用价值。