摘要
本发明提供一种多模态情感识别方法及装置,涉及人工智能技术领域,该方法包括:通过交叉注意力机制将第一文本模态特征与第一图像模态特征进行融合,生成融合注意力的图像特征,通过交叉注意力机制将第一文本模态特征与第一语音模态特征进行融合,生成融合注意力的语音特征;将融合注意力的语音特征、融合注意力的图像特征、第一文本模态特征送入多层Transformer编码器中进行学习,生成第二语音模态特征、第二图像模态特征、第二文本模态特征,并基于所述第二语音模态特征、所述第二图像模态特征和所述第二文本模态特征进行情感识别,实现了较精准的多模态情感识别。