摘要
本发明公开了一种文件结构化信息的提取方法、装置、设备、介质和产品,涉及数据处理技术领域,包括:确定待处理文件的文件内容类型;在确定文件内容类型为图像内容文件的情况下,对待处理文件进行文本识别,确定待处理文件包含的待处理文本以及待处理文本在待处理文件中对应的文本区域坐标;对待处理文本进行结构化内容实体识别,确定待处理文本包含的结构化内容实体以及各结构化内容实体在文本区域坐标中分别对应的内容实体坐标;根据各内容实体坐标构建各结构化内容实体之间的内容实体关系数据,并根据内容实体关系数据对待处理文本进行结构化信息提取,得到待处理文件包含的目标结构化信息。本发明能够提升结构化信息提取的准确性及完整性。