多模态数据的结构化分解及信息识别方法、介质及设备

申请号：CN202511187849

申请日期：2025-08-25

公开号：CN121033879A

公开日期：2025-11-28

类型：发明专利

摘要

本申请提供一种多模态数据的结构化分解及信息识别方法、介质及设备，方法包括：获取待处理的多模态文献数据，多模态文献数据为文档或图片，文档的类型包括word文档和PDF文档；将待处理的多模态文献数据转换为图像形式的待处理文献数据并进行预处理，得到输入图像数据，输入至领域微调DETR模型，通过领域微调DETR模型识别输入图像数据的逻辑区域类别，得到区域类别识别结果并输出，逻辑区域类别包括标题区域、作者区域、摘要区域、正文区域、插图区域、表格区域、公式区域、页脚区域和参考文献区域；对每个区域类别识别结果进行差异化信息提取，得到每个区域类别识别结果对应的信息，以实现对多模态数据中信息的准确识别。

技术关键词

信息识别方法识别置信度对象文本识别方法置信度阈值数据多模态芳香环图像表格手性中心邻居分子逻辑电子设备摘要聚类算法文本行