摘要
本发明提供了一种基于多种相似度的轻量级实体匹配方法,涉及自然语言处理与知识图谱技术领域,本发明构造正负样本后进行分词与向量化处理;随后通过平均池化获得实体与上下文的向量表示。在特征计算阶段引入Word2Vec语义相似度、BM25双向最大值相似度、Jaccard相似度,并结合注意力机制提取上下文中与候选实体最相关的信息。将多维相似度特征拼接后输入至多层感知机分类器,利用ReLU激活和Dropout防止过拟合,最终通过Sigmoid函数输出候选实体为正确链接的概率。本发明能够在保持较低计算开销的同时实现较高的实体链接准确率,适用于产品信息处理等需要高效、可解释匹配的场景。