基于空间字典的重叠语音检测与说话人计数方法及系统

申请号：CN202510571004

申请日期：2025-04-30

公开号：CN120431967A

公开日期：2025-08-05

类型：发明专利

摘要

本发明提出了一种基于空间字典的重叠语音检测与说话人计数方法及系统，该方法的步骤为：S1，获取多通道麦克风阵列采集的语音数据；S2，提取训练数据的帧级标注信息；S3，构建特征提取模块；S4，设计融合建模结构，将多通道幅度与方向概率进行加权融合，并输入Conformer模块以建模帧间时序关系，实现帧级重叠检测与人数估计；S5，输入训练数据进行联合多任务训练，优化模型参数并保存模型；S6，将测试数据输入训练完成的模型，输出每一帧是否存在重叠语音及相应的说话人数预测结果。本发明通过引入空间字典机制与谱时融合策略，显著提升了远场多说话人语音场景下的鲁棒性与检测准确率。

技术关键词

说话人计数方法麦克风阵列采集字典特征提取模块联合损失函数语音标签子模块多通道嵌入特征二维卷积网络局部结构特征短时傅里叶变换空间特征提取融合特征前馈神经网络时序计数系统数据获取模块