一种多元文档解析方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种多元文档解析方法及系统
申请号:CN202511385222
申请日期:2025-09-26
公开号:CN120874816A
公开日期:2025-10-31
类型:发明专利
摘要
本申请提供一种多元文档解析方法及系统,涉及计算机信息处理领域,解决了无法统一解析与集成各类型文档的格式,导致信息提取效率低、准确率不高的技术问题。该方法包括:识别待处理文档的类型;文档类型包括表格类、文本类和演示类;文本类包括Word格式和PDF格式;根据待处理文档的类型调用对应的解析函数,对待处理文档进行解析得到解析结果,解析结果包括提取的待处理文档的结构信息和内容数据;将解析结果转化为标准JSON格式并输出。本申请用于文档解析过程中。
技术关键词
文档解析方法 格式 YOLO模型 元素 图片 表格 工作表 文本 图像 媒体 合并单元格 识别页面 识别模块 索引 数据 解析系统 变量 语义标签 坐标