基于多模态语言模型的PDF文档结构化提取系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态语言模型的PDF文档结构化提取系统
申请号:CN202510866013
申请日期:2025-06-26
公开号:CN120877316A
公开日期:2025-10-31
类型:发明专利
摘要
本发明公开了基于多模态语言模型的PDF文档结构化提取系统,属于文档处理与光学字符识别技术领域,本发明要解决的技术问题为如何改进现有的OCR技术提升对复杂文档结构的解析能力,提高对手写体及其他非标准字体的识别精度,降低大模型文档的处理成本,技术方案为:该系统采用分层解耦架构,包括输入层、预处理层、推理层、输出层以及监控与容错模块;其中,输出层用于多源数据接入与路径管理,实现本地文件系统或S3云存储;预处理层用于无效文档过滤及视觉特征提取;推理层用于多模态模型交互与内容处理;输出层用于输出内容聚合结果;监控与容错模块用于实现实时状态监控、资源消耗分析及异常处理。
技术关键词
多模态 视觉特征提取 标记机制 分析文档内容 光学字符识别技术 文本 非标准字体 页面内容 文字识别技术 文件系统 图表 表格 队列机制 令牌 模块 布局 列表 图像 数据存储