一种端到端的通用表格内容识别与拆分方法、装置及计算机可读存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种端到端的通用表格内容识别与拆分方法、装置及计算机可读存储介质
申请号:CN202510219479
申请日期:2025-02-26
公开号:CN120148056A
公开日期:2025-06-13
类型:发明专利
摘要
本发明属于图像数据处理的技术领域,更具体地,涉及一种端到端的通用表格内容识别与拆分方法、装置及计算机可读存储介质。所述方法包括S1构建多模态大模型M,以对图像中的表格内容进行识别与拆分;S2通过对获取的数据定义数据标签结构、数据标注和数据增强,构建多模态大模型微调数据集D;S3使用数据集D对多模态大模型M进行两阶段渐进式增量微调得到多模态大模型M2;S4采用微调后的多模态大模型M2对图像进行表格内容识别或表格拆分。本发明解决了现有的技术缺乏对图像布局的语义理解,导致泛化性较低,特别是在处理三线表等特殊格式时,识别能力较差的问题。
技术关键词
拆分方法 表格 多模态 标签结构 图像编码器 Windows系统 可读存储介质 缩略图 多层感知机 格式 视觉特征提取 合并单元格 图像数据处理 两阶段 多任务 图像块 计算机