摘要
本发明提出了一种基于空间字典的重叠语音检测与说话人计数方法及系统,该方法的步骤为:S1,获取多通道麦克风阵列采集的语音数据;S2,提取训练数据的帧级标注信息;S3,构建特征提取模块;S4,设计融合建模结构,将多通道幅度与方向概率进行加权融合,并输入Conformer模块以建模帧间时序关系,实现帧级重叠检测与人数估计;S5,输入训练数据进行联合多任务训练,优化模型参数并保存模型;S6,将测试数据输入训练完成的模型,输出每一帧是否存在重叠语音及相应的说话人数预测结果。本发明通过引入空间字典机制与谱时融合策略,显著提升了远场多说话人语音场景下的鲁棒性与检测准确率。