摘要
本发明提供了一种面向多模态的幽默识别方法,涉及多模态幽默识别技术领域,在一种实现方式中,本发明将引入的外部知识作为单独模态,并与文本、音频和视频模态进行融合。先通过全连接层进行维度对齐,再将其拼接输入到Transformer中学习四种模态之间的交互关系,同时借助交叉注意力机制对模态融合进行了优化,由此解决了外部知识引入和模态融合方案的问题。在另一种实现方式中,通过图注意力网络进行数据增强,来弥补当前数据集数量稀缺的问题,将相关模态进行融合拼接,然后送入到交叉注意力网络中,再通过多头自注意力层进一步融合,最后输入到最大池层获得融合向量的单一特征表示,得到幽默极性的预测概率分布,由此得到更加有效的模态融合。