摘要
本发明属于非结构化文档切分技术领域,涉及一种基于标题增强与多模态的非结构化文档切分方法,采用标题增强模块对文本类文档进行切分,该模块采用启发式规则引擎,结合文本形态特征、上下文语义与排版线索,对文档的候选标题进行评估,以确认标题;采用图像超分、布局检测、元素判断过程、多模态大模型以及光学字符识别模型对图像表格类文档进行切分,图像超分用于增强图像品质,布局检测用于对超分后的图像进行布局检测,根据检测结果通过元素判断过程判断文档中是否存在不便于光学字符识别模型解析的元素,以通过多模态大模型与光学字符识别模型相结合对文档进行解析,提升响应速度。