摘要
本发明公开了一种面向多图像场景的多模态命名实体识别方法及系统,其中方法包括:S1.对输入的文本序列及关联的若干图像进行对象检测,获得每张图像中的候选对象集合;S2.提取文本序列的文本特征,并提取各候选对象的对象特征;S3.基于对象特征的相似度进行相关性聚类,从聚类结果中筛选与命名实体相关的跨图像一致性对象;S4.将文本特征与一致性对象特征输入动态融合网络,通过跨模态注意力机制动态调整模态权重,生成多模态融合表示;S5.对多模态融合表示解码获得命名实体识别结果。本发明解决了传统方法在多图像场景中存在的噪声干扰和模态权重静态分配问题。