摘要
本发明实施例涉及一种对PDF文件进行元素标注的处理方法和装置,所述方法包括:对标注者输入的PDF文件进行图像转换和基础元素解析;在标注过程中,通过记录标注者的标注行为刷新标注轨迹和目标元素集;并由行为预测模型根据标注轨迹为下一步标注提供候选元素集;并基于标注者的候选反馈提升预测模型性能;并基于多模态特征识别模型为目标元素添加多模态元素特征;并通过目标匹配和轨迹跟踪处理机制刷新关联目标轨迹;在标注结束后,进行跨页元素融合和标注一致性检查;最后将完成一致性检查目标集向标注者反馈。本发明可以提高标注效率、提高跨页元素的识别准确率和融合效率、提高标注一致性。