一种端到端的通用表格内容识别与拆分方法、装置及计算机可读存储介质
申请号:CN202510219479
申请日期:2025-02-26
公开号:CN120148056A
公开日期:2025-06-13
类型:发明专利
摘要
本发明属于图像数据处理的技术领域,更具体地,涉及一种端到端的通用表格内容识别与拆分方法、装置及计算机可读存储介质。所述方法包括S1构建多模态大模型M,以对图像中的表格内容进行识别与拆分;S2通过对获取的数据定义数据标签结构、数据标注和数据增强,构建多模态大模型微调数据集D;S3使用数据集D对多模态大模型M进行两阶段渐进式增量微调得到多模态大模型M2;S4采用微调后的多模态大模型M2对图像进行表格内容识别或表格拆分。本发明解决了现有的技术缺乏对图像布局的语义理解,导致泛化性较低,特别是在处理三线表等特殊格式时,识别能力较差的问题。
技术关键词
拆分方法
表格
多模态
标签结构
图像编码器
Windows系统
可读存储介质
缩略图
多层感知机
格式
视觉特征提取
合并单元格
图像数据处理
两阶段
多任务
图像块
计算机