一种基于大语言模型的PDF文本提取方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于大语言模型的PDF文本提取方法及系统
申请号:CN202511115421
申请日期:2025-08-11
公开号:CN120599643B
公开日期:2025-10-17
类型:发明专利
摘要
本发明涉及文档处理与数据提取领域,具体公开了一种基于大语言模型的PDF文本提取方法及系统,本发明对目标PDF文档各页内容定位标记得到第一待识别区域以及第二待识别区域,剔除待识别区域的噪声干扰特征;制定多层次文本逻辑重构策略完成对目标PDF文档逻辑顺序的重构,初步输出一级PDF文档,并进行一次图文关联程度分析输出第一关联强度;通过大语言模型对一级PDF文档的内容,进行语义结构上的智能异常识别并修正得到二级PDF文档,输出第二关联强度;基于第一关联强度以及第二关联强度判断二级PDF文档是否合格;本发明有助于恢复文档的逻辑顺序与语义完整性,提升文本纯净度与结构完整性。
技术关键词
文本提取方法 大语言模型 重构策略 干扰特征 识别策略 空间定位信息 图文 语义结构 逻辑 定位标记 多层次 智能识别模块 强度 生成文档 位置识别 页面 元素 剔除噪声