基于语义的表格图像及其标注数据自动生成方法与系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于语义的表格图像及其标注数据自动生成方法与系统
申请号:CN202510711984
申请日期:2025-05-29
公开号:CN120599084A
公开日期:2025-09-05
类型:发明专利
摘要
本发明为基于语义的表格图像及其标注数据自动生成方法与系统,其中方法包括以下步骤:获取单表头语义数据集和多表头语义数据集,所述单表头语义数据集中每一条语义数据包含单行表头和多行具体值,所述多表头语义数据集中每一条语义数据包含多行表头和多行具体值;基于单表头语义数据集和多表头语义数据集构造表格图像构造表格图像,包括单行表头图像、多行表头图像和层级表格图像;基于预设的基础模板,生成基础标注数据;将所述基础标注数据输入预设的大语言模型,利用Few‑shot的学习方式,生成标注变体;结合所述表格图像、基础模板和标注变体,生成不同的标注数据,获得所有标注数据和带有不同标注数据的表格图像。
技术关键词
数据自动生成方法 表头 表格 语义 文本 基础 数据自动生成系统 模板 层级 三元组 图像增强 数据获取模块 输出模块 处理器 生成规则 字体 数据格式