摘要
本发明公开了一种多模态情感分析方法和装置,涉及情感分析技术领域,方法包括:将待测多模态情感数据进行特征提取并进行模态对齐,确定对齐文本特征、对齐视频特征和对齐音频特征;基于对齐文本特征分别对对齐视频特征和对齐音频特征进行特征强化,生成强化视频特征和强化音频特征;采用对齐文本特征、强化视频特征和强化音频特征进行跨模态交叉注意力融合,构建交互文本特征、交互视频特征和交互音频特征;对交互文本特征、交互视频特征和交互音频特征进行后期融合后进行情感预测,输出情感分析结果。采用音视频特征强化机制提升音视频模态的特征质量,有效联合跨模态特征交互和多模态晚期融合,从而整体上提升多模态情感分析可靠性。