摘要
本发明公开一种多模态情感识别方法、系统、设备及介质,属于语音数据处理技术领域,系统包括语音特征提取模块、文本特征提取模块、语谱图特征提取模块、处理模块和分类器,利用语音特征提取模块用于语音信号的特征提取并处理,利用文本特征提取模块用于文本信号的特征提取并处理,语谱图特征提取模块用于语谱图信号的特征提取并处理,处理模块用于对上述三种特征进行拼接并与独立模态的特征进行处理然后分类输出,分类器用于将输出数据转化成情感标签。本发明通过三级交互架构:模内自注意力 → 跨模态注意力 → 图卷积,实现从局部到全局的渐进融合,从而实现模内交互与模态间的交互。