一种基于双层架构语音分割的智慧课堂交互分析方法

申请号：CN202511287102

申请日期：2025-09-10

公开号：CN120783757B

公开日期：2025-12-02

类型：发明专利

摘要

本发明提供了一种基于双层架构语音分割的智慧课堂交互分析方法，涉及语音分割技术领域，具体包括如下步骤：利用梅尔频率倒谱系数MFCC提取语音信号的语音特征。设计文本增强的基于多尺度时序感知时延神经网络，对语音特征进行粗筛，将音频片段分为单说话人片段和多说话人片段；将粗筛后的多说话人片段输入融合邻近窗口信息的滑动窗口分割模型SW‑NIF，定位多说话人片段内部的说话人转换点。将构建的模型在数据集上进行训练并验证模型。本发明的技术方案克服现有技术中忽视课堂音频的分割问题，仅对课堂音频进行简单的分割用于后续任务，致使音频片段中说话人混杂，影响分析效果的问题。

技术关键词

智慧课堂分析方法输出特征多尺度滑动窗口语音特征提取语义特征协同注意力模块时序门控循环单元线性音频全局平均池化短时特征动态门控梅尔频率倒谱系数