基于视觉语言预训练和多模态协同融合的情感识别方法

申请号：CN202411001937

申请日期：2024-07-25

公开号：CN119026071B

公开日期：2025-04-25

类型：发明专利

摘要

本发明公开了基于视觉语言预训练和多模态协同融合的情感识别方法，属于多模态情感识别技术领域；本发明先通过视觉语言预训练范式使用大规模视觉‑文本对数据集对视觉编码器进行预训练，以提高其视觉特征提取能力；再对视频提取图像帧、骨骼节点、音频，分别输送进各个模态的编码器中，提取多个模态的特征；将骨骼节点特征和视频帧提取的特征通过交叉注意力机制进行融合，以通过人的动作姿态等信息进一步强化视觉特征；最后通过可学习的查询向量和交叉注意力机制，将视觉特征和音频特征融合进查询向量中；预测阶段使用学习得到的查询向量特征进行情感分类。

技术关键词

情感识别方法交叉注意力机制 Sigmoid函数短时傅里叶变换音频特征视频节点特征多模态情感识别情感类别均匀采样方法视觉特征提取图像文本编码器数据多层感知机