摘要
本发明提供了一种基于双层架构语音分割的智慧课堂交互分析方法,涉及语音分割技术领域,具体包括如下步骤:利用梅尔频率倒谱系数MFCC提取语音信号的语音特征。设计文本增强的基于多尺度时序感知时延神经网络,对语音特征进行粗筛,将音频片段分为单说话人片段和多说话人片段;将粗筛后的多说话人片段输入融合邻近窗口信息的滑动窗口分割模型SW‑NIF,定位多说话人片段内部的说话人转换点。将构建的模型在数据集上进行训练并验证模型。本发明的技术方案克服现有技术中忽视课堂音频的分割问题,仅对课堂音频进行简单的分割用于后续任务,致使音频片段中说话人混杂,影响分析效果的问题。