摘要
本发明公开了一种基于双重语义的跨页表格判别方法,涉及文本处理技术领域,包括:获取待测的上下文表格数据;将待测的下文表格的首行文本序列输入到训练好的表头判别模型进行判断,当判定下文表格不存在表头时,则继续进行后续步骤;否则判定为不是跨页表格;将待测的上下文表格的表格前缀文本序列与上下文表格的位置特征输入到训练好的上下文前缀文本判别模型得出判别结果;在下文表格表头不存在的情况下,进入第二阶段上下文表格内容语义判别,将表格前缀文本语义特征融合上下文表格的位置特征,并通过交叉注意力方式,建模拼接表格正文语义位置特征与上文表格表头语义位置特征之间的依赖关系,提升了本发明对于跨页表格的判别的准确性和精确度,同时方便在实际应用中部署,效率高。