一种基于扩散增强和多粒度特征融合的语音情感识别方法

申请号：CN202411820247

申请日期：2024-12-11

公开号：CN119296588B

公开日期：2025-03-11

类型：发明专利

摘要

本发明属于情感计算技术领域，具体涉及一种基于扩散增强和多粒度特征融合的语音情感识别方法，该方法将音频转换为梅尔频谱图；将梅尔频谱图输入扩散模型中，再逐步进行正向扩散注入噪声和反向扩散去除噪声，以恢复出更加清晰的音频；提取增强后音频的特征，然后从音频中提取出帧级特征、段级特征和话语级特征，再进行自适应特征选择，通过权重位置依赖进行深层融合；将融合后的多粒度语音特征输入动态图卷积情感分类模型，生成情感状态识别结果。本发明可提供多分类语音情感识别和语音质量增强等服务，从而在交互中提供更加人性化的响应。

技术关键词

语音特征语音情感识别方法情感类别情感分类模型节点特征音频情感状态识别情感计算技术记忆交叉注意力机制网络多头注意力机制邻居矩阵描述符消除方法冗余