摘要
本发明公开了一种复杂表格数据错误检测方法,包括:获取复杂表格数据样本;构建逻辑分组模块、联合表征模块、特殊对采样模块和逆倾向分数修正的分类器模块;逻辑分组模块基于距离相关系数对属性列进行逻辑分组,将最有可能存在上下文语义关系的属性列划分到一组内;联合表征模块加强各个分组内特征向量的上下文逻辑关系的表征能力;基于簇内平方和函数与bce‑rerank模型的特殊对采样模块能在少量标注实例的情况下准确定位到最具信息量的特例数据对;基于逆倾向分数修正的分类器模块旨在消除采样过程中的选择偏差问题;将表格数据标注样本输入上述错误检测模型进行处理,得到最终的错误检测结果。