一种多模态情感识别方法及装置

申请号：CN202411123120

申请日期：2024-08-15

公开号：CN119128676A

公开日期：2024-12-13

类型：发明专利

摘要

本发明提供一种多模态情感识别方法及装置，涉及人工智能技术领域，该方法包括：通过交叉注意力机制将第一文本模态特征与第一图像模态特征进行融合，生成融合注意力的图像特征，通过交叉注意力机制将第一文本模态特征与第一语音模态特征进行融合，生成融合注意力的语音特征；将融合注意力的语音特征、融合注意力的图像特征、第一文本模态特征送入多层Transformer编码器中进行学习，生成第二语音模态特征、第二图像模态特征、第二文本模态特征，并基于所述第二语音模态特征、所述第二图像模态特征和所述第二文本模态特征进行情感识别，实现了较精准的多模态情感识别。

技术关键词

模态特征交叉注意力机制情感识别方法多模态情感识别文本语音特征图像双向长短期记忆计算机可读取存储介质音频特征编码器预训练模型面部关键点计算机可读指令数据机器学习模型 ResNet网络