一种面向多图像场景的多模态命名实体识别方法及系统

申请号：CN202511059945

申请日期：2025-07-30

公开号：CN120930645A

公开日期：2025-11-11

类型：发明专利

摘要

本发明公开了一种面向多图像场景的多模态命名实体识别方法及系统，其中方法包括：S1.对输入的文本序列及关联的若干图像进行对象检测，获得每张图像中的候选对象集合；S2.提取文本序列的文本特征，并提取各候选对象的对象特征；S3.基于对象特征的相似度进行相关性聚类，从聚类结果中筛选与命名实体相关的跨图像一致性对象；S4.将文本特征与一致性对象特征输入动态融合网络，通过跨模态注意力机制动态调整模态权重，生成多模态融合表示；S5.对多模态融合表示解码获得命名实体识别结果。本发明解决了传统方法在多图像场景中存在的噪声干扰和模态权重静态分配问题。

技术关键词

命名实体识别方法命名实体识别系统图像文本注意力机制多模态对象检测跨模态场景置信度阈值聚类动态序列条件随机场识别模块网络