基于Mel语谱图特征及SSA-TFSCNet语音情感识别方法及系统

申请号：CN202511160982

申请日期：2025-08-19

公开号：CN120954456A

公开日期：2025-11-14

类型：发明专利

摘要

本发明公开了基于Mel语谱图特征及SSA‑TFSCNet的语音情感识别方法及系统，方法如下：S1.将音频信号提取为一维时序信号并进行预处理，得到每个音频对应的Mel语谱图，划分成训练集和验证集；S2.构建基础网络TFSC的基本框架，结合双重注意力机制，搭建可变参数的TFSCNet模型；S3.将训练集和TFSCNet模型输入SSA算法进行训练，并设置利用SSA算法寻参时TFSCNet模型的参数范围，利用验证集进行验证，通过SSA算法获得TFSCNet模型的最优参数；S4.将SSA算法寻得的最优参数应用于TFSCNet模型中，得到参数固定的TFSCNet模型；S5.将训练集数据输入TFSCNet模型进行训练，并用验证集进行验证，若符合验证条件的，停止训练，保存最佳模型；S6.将待测试语音信号进行处理生成Mel语谱图后，输入最佳模型，得到预测情感。

技术关键词

语音情感识别方法 SSA算法训练集数据参数注意力机制代表频率语音情感识别系统位置更新情感特征音频情感识别模型短时傅里叶变换信号模块 ReLU函数网络索引多层感知机