一种语音情绪识别方法、系统、设备和介质

申请号：CN202511011353

申请日期：2025-07-22

公开号：CN120636479A

公开日期：2025-09-12

类型：发明专利

摘要

本发明公开了一种语音情绪识别方法、系统、设备和介质，其涉及语音识别技术领域。包括：获取音频数据，提取音频数据的音频情感特征；将音频数据转录为文本数据，提取文本数据的低层文本特征；分别对音频情感特征表示和低层文本特征进行高层特征提取，得到高层音频特征和高层文本特征；将高层音频特征和高层文本特征映射到同一维度后进行跨模态融合，得到音频‑文本融合特征；将高层音频特征、高层文本特征和音频‑文本融合特征进行拼接，得到多模态特征；对多模态特征中多个特征的权重进行加权融合，得到加权融合特征，及根据加权融合特征确定对应的情绪识别结果。本发明能够显著提升在存在噪声干扰的复杂环境下的情绪识别准确性。

技术关键词

语音情绪识别方法文本融合特征情感特征注意力机制音频特征提取梅尔频率倒谱系数音质特征跨模态多模态特征深度卷积神经网络韵律特征语音情绪识别系统识别模块长短期记忆网络双向变换器

系统为您推荐了相关专利信息

一种基于TransNeXt的水下鱼类识别方法

鱼类识别方法多头注意力机制滑动窗口编码器结构分辨率

基于多模态模型CLIP的隐空间净化的图像分类方法及装置

图像分类方法多模态预训练模型图像分类装置文本编码器

一种面向供电服务指挥大模型的上下文长度扩展方法及系统

扩展系统注意力机制语义编码向量缩放技术

知识数据存储和管理方法、装置、设备及存储介质

生成知识文本 BERT模型管理系统管理方法

一种基于大语言模型的SQL语句转换方法、介质及设备

语句转换方法场景大语言模型文本表格