摘要
本申请提供一种基于多模态信息融合的钻井工程文档识别方法及装置,涉及工程文档处理领域,包括:对预处理后的原始钻井文档图像进行多模态特征提取,得到文本模态特征、图像模态特征、结构模态特征及语义模态特征;对所述文本模态特征、图像模态特征、结构模态特征及语义模态特征进行多模态信息融合,得到高层融合特征及初步纠错标识;根据所述高层融合特征及初步纠错标识进行多任务识别纠错,得到最终识别结果;对所述最终识别结果进行语义关联处理,得到结构化输出结果。本申请能够通过融合文本、图像及领域知识等多模态信息,增强对钻井文档中复杂图形的语义理解,提高专业符号、图表及标注信息的识别准确率。