一种解析pdf中段落对齐方法、装置及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种解析pdf中段落对齐方法、装置及介质
申请号:CN202411569235
申请日期:2024-11-05
公开号:CN119227671A
公开日期:2024-12-31
类型:发明专利
摘要
本发明属于PDF解析技术领域,提供了一种解析pdf中段落对齐方法、装置及介质。本发明利用Apache的开源框架PDFBOX,对PDF文件进行读取,然后对文字进行排序、转换排版,确定好段落,标题,页眉页脚等信息,基于段落内容进行行级拆分,并设置容错空间对行级内容进行分析判断,由此确定段落对齐,从而能够保持转换后的文档的准确对齐,并具有高质量、易编辑的特点。
技术关键词
对齐方法 坐标 开源框架 对齐装置 Y轴 页面宽度 排版 解析技术 存储计算机程序 数据 存储器 排序算法 处理器 可读存储介质 列表 字体 编辑 内存
系统为您推荐了相关专利信息
车辆三维模型 驾驶位 视野 坐标 参数
可见光图像 校正特征 配准方法 特征点提取方法 异源
无人机 定位方法 融合机器学习 差分定位技术 误差补偿模型
图像降噪方法 降噪模型 噪声强度 表达式 像素
对象 姿势 运动图像序列 多尺度特征提取 测距方法