基于多模态语言模型的PDF文档结构化提取系统

申请号：CN202510866013

申请日期：2025-06-26

公开号：CN120877316A

公开日期：2025-10-31

类型：发明专利

摘要

本发明公开了基于多模态语言模型的PDF文档结构化提取系统，属于文档处理与光学字符识别技术领域，本发明要解决的技术问题为如何改进现有的OCR技术提升对复杂文档结构的解析能力，提高对手写体及其他非标准字体的识别精度，降低大模型文档的处理成本，技术方案为：该系统采用分层解耦架构，包括输入层、预处理层、推理层、输出层以及监控与容错模块；其中，输出层用于多源数据接入与路径管理，实现本地文件系统或S3云存储；预处理层用于无效文档过滤及视觉特征提取；推理层用于多模态模型交互与内容处理；输出层用于输出内容聚合结果；监控与容错模块用于实现实时状态监控、资源消耗分析及异常处理。

技术关键词

多模态视觉特征提取标记机制分析文档内容光学字符识别技术文本非标准字体页面内容文字识别技术文件系统图表表格队列机制令牌模块布局列表图像数据存储