摘要
本发明公开了基于视觉语言预训练和多模态协同融合的情感识别方法,属于多模态情感识别技术领域;本发明先通过视觉语言预训练范式使用大规模视觉‑文本对数据集对视觉编码器进行预训练,以提高其视觉特征提取能力;再对视频提取图像帧、骨骼节点、音频,分别输送进各个模态的编码器中,提取多个模态的特征;将骨骼节点特征和视频帧提取的特征通过交叉注意力机制进行融合,以通过人的动作姿态等信息进一步强化视觉特征;最后通过可学习的查询向量和交叉注意力机制,将视觉特征和音频特征融合进查询向量中;预测阶段使用学习得到的查询向量特征进行情感分类。