一种非结构化PDF文档智能解析方法、装置、设备及介质
申请号:CN202511248022
申请日期:2025-09-03
公开号:CN120747992B
公开日期:2025-11-14
类型:发明专利
摘要
本申请公开了一种非结构化PDF文档智能解析方法、装置、设备及介质,涉及文档解析领域,该方法包括:获取待解析的PDF文档,并解析PDF文档中的页面元素,生成文档元数据字典;若PDF文档中未包含可提取文本,则将PDF文档转换为图像并进行光学字符识别,生成第一结构化数据;若PDF文档中包含可提取文本,则判断PDF文档中是否包含表格;若PDF文档中不包含表格,则采用PDFMiner提取文本,生成第二结构化数据;若PDF文档中包含表格,则根据文档元数据字典对PDF文档进行多模态特征提取及特征融合,得到多模态融合特征,并根据多模态融合特征生成第三结构化数据;本申请提高了PDF文档的解析精度及效率。
技术关键词
智能解析方法
预处理图像数据
文本
多模态
融合特征
字典
语义向量
生成文档
表格
光学字符识别
深度学习算法
坐标
元素
视觉方法
页面
交叉注意力机制
视觉特征提取