基于视觉语言预训练和多模态协同融合的情感识别方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于视觉语言预训练和多模态协同融合的情感识别方法
申请号:CN202411001937
申请日期:2024-07-25
公开号:CN119026071B
公开日期:2025-04-25
类型:发明专利
摘要
本发明公开了基于视觉语言预训练和多模态协同融合的情感识别方法,属于多模态情感识别技术领域;本发明先通过视觉语言预训练范式使用大规模视觉‑文本对数据集对视觉编码器进行预训练,以提高其视觉特征提取能力;再对视频提取图像帧、骨骼节点、音频,分别输送进各个模态的编码器中,提取多个模态的特征;将骨骼节点特征和视频帧提取的特征通过交叉注意力机制进行融合,以通过人的动作姿态等信息进一步强化视觉特征;最后通过可学习的查询向量和交叉注意力机制,将视觉特征和音频特征融合进查询向量中;预测阶段使用学习得到的查询向量特征进行情感分类。
技术关键词
情感识别方法 交叉注意力机制 Sigmoid函数 短时傅里叶变换 音频特征 视频 节点特征 多模态情感识别 情感类别 均匀采样方法 视觉特征提取 图像 文本编码器 数据 多层感知机