基于随机森林模型的PDF段落识别方法、装置及相关组件
申请号:CN202510478316
申请日期:2025-04-16
公开号:CN120411987A
公开日期:2025-08-01
类型:发明专利
摘要
本发明实施例提供了基于随机森林模型的PDF段落识别方法、装置及相关组件,该识别方法利用三个不同的训练参数对三个随机森林模型进行训练,得到三个训练后的随机森林模型,分别为第一随机森林模型、第二随机森林模型以及第三随机森林模型,利用训练后的第一随机森林模型能够识别PDF文档的可编辑区域,利用训练后的第二随机森林模型能够对文字对象容器中的文字对象进行行拼接,得到PDF文档的行对象,以及利用训练后的第三随机森林模型对行对象进行段落拼接,得到PDF文档的段落识别结果。本实施例的识别方法可对文字对象和路径对象进行识别,提高了随机森林模型的识别适应性。
技术关键词
随机森林模型
段落识别方法
对象
容器
编辑
参数
解析器
字符
基线
直线
可读存储介质
线段
处理器
识别装置
间距
计算机设备
颜色
存储器