摘要
本发明提供一种合同数据识别提取方法及系统,构建合同图像数据集后将合同图像数据集划分为训练集和测试集;采用重新排列的CRNN特征序列化对合同图像进行文本行处理;基于FPN网络构建文字识别模型和数字识别模型;利用加权融合将文字识别模型和数字识别模型提取的特征合并成一个特征向量,构建CNN‑RECR模型后,将训练集输入模型中进行训练;将训练集和测试集分别输入训练后的模型,进行合同数据识别提取。本发明应用残差结构单元将特征向量转换为多维形式,以获取语句结构的分布情况,将文字识别模型以及数字识别模型融合后引入哈希层结合得到CNN‑RECR模型,通过将高维特征映射为低维的二进制码,有助于降低存储需求。