摘要
本发明公开了一种语音情绪识别方法、系统、设备和介质,其涉及语音识别技术领域。包括:获取音频数据,提取音频数据的音频情感特征;将音频数据转录为文本数据,提取文本数据的低层文本特征;分别对音频情感特征表示和低层文本特征进行高层特征提取,得到高层音频特征和高层文本特征;将高层音频特征和高层文本特征映射到同一维度后进行跨模态融合,得到音频‑文本融合特征;将高层音频特征、高层文本特征和音频‑文本融合特征进行拼接,得到多模态特征;对多模态特征中多个特征的权重进行加权融合,得到加权融合特征,及根据加权融合特征确定对应的情绪识别结果。本发明能够显著提升在存在噪声干扰的复杂环境下的情绪识别准确性。