一种基于标题增强与多模态的非结构化文档切分方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于标题增强与多模态的非结构化文档切分方法
申请号:CN202511461262
申请日期:2025-10-14
公开号:CN120954011A
公开日期:2025-11-14
类型:发明专利
摘要
本发明属于非结构化文档切分技术领域,涉及一种基于标题增强与多模态的非结构化文档切分方法,采用标题增强模块对文本类文档进行切分,该模块采用启发式规则引擎,结合文本形态特征、上下文语义与排版线索,对文档的候选标题进行评估,以确认标题;采用图像超分、布局检测、元素判断过程、多模态大模型以及光学字符识别模型对图像表格类文档进行切分,图像超分用于增强图像品质,布局检测用于对超分后的图像进行布局检测,根据检测结果通过元素判断过程判断文档中是否存在不便于光学字符识别模型解析的元素,以通过多模态大模型与光学字符识别模型相结合对文档进行解析,提升响应速度。
技术关键词
光学字符识别 启发式规则 自定义规则 非结构化文档 文本 图像 布局 元素 条件随机场 语义 多模态 自然语言 表格 混合结构 预训练语言模型 滑动窗口 标签 检测头 特征提取器 句法结构