文件结构化信息的提取方法、装置、设备、介质和产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
文件结构化信息的提取方法、装置、设备、介质和产品
申请号:CN202511358445
申请日期:2025-09-23
公开号:CN120849649A
公开日期:2025-10-28
类型:发明专利
摘要
本发明公开了一种文件结构化信息的提取方法、装置、设备、介质和产品,涉及数据处理技术领域,包括:确定待处理文件的文件内容类型;在确定文件内容类型为图像内容文件的情况下,对待处理文件进行文本识别,确定待处理文件包含的待处理文本以及待处理文本在待处理文件中对应的文本区域坐标;对待处理文本进行结构化内容实体识别,确定待处理文本包含的结构化内容实体以及各结构化内容实体在文本区域坐标中分别对应的内容实体坐标;根据各内容实体坐标构建各结构化内容实体之间的内容实体关系数据,并根据内容实体关系数据对待处理文本进行结构化信息提取,得到待处理文件包含的目标结构化信息。本发明能够提升结构化信息提取的准确性及完整性。
技术关键词
实体关系数据 文本识别 坐标 大语言模型 指令 语义 表格 可读存储介质 列表 数据处理技术 计算机程序产品 图像 电子设备 处理器通信 层级
系统为您推荐了相关专利信息
导航方法 图谱 房间 机器人 场景
FPC连接器 协同控制方法 记忆图谱 引线 机械臂
深度强化学习 分层强化学习 双层智能 制导方法 网络
系统优化方法 补货清单 计划 产品销量预测 销售系统
状态检测模块 自动驾驶系统 控制误差 算法模块 化评估方法