一种基于多模态自适应融合的情感识别方法、系统、设备及存储介质
申请号:CN202510542178
申请日期:2025-04-28
公开号:CN120449096A
公开日期:2025-08-08
类型:发明专利
摘要
本发明公开了一种基于多模态自适应融合的情感识别方法、系统、设备及存储介质,涉及人工智能技术领域,方法包括:选取预训练模型分别提取音频和视频的原始特征,音频用卷积层初步提取,视频经多模块处理并保留时序信息。接着构建注意力模块生成注意力矩阵和交互特征,用该矩阵调整原始特征。再将加权融合后的特征输入卷积网络提取高级时序特征,之后对其在时间维度池化压缩,将音频和视频特征拼接,最后送入全连接层分类器得出情感分类结果;本发明能够动态调整不同特征的权重,从而有效融合音频和视觉特征,以提升情感识别的准确性和鲁棒性,在加权召回率和未加权召回率方面均表现出显著提升,且具有较高的计算效率和可扩展性。
技术关键词
情感识别方法
时序特征
交互特征
多模态
计算机可执行指令
视觉特征
时间序列特征
矩阵
视频时序信息
特征提取模块
情感识别系统
视频特征提取
音频特征提取
多头注意力机制