一种基于纯文本数据的通用卡证识别模型构建方法及系统
申请号:CN202411070845
申请日期:2024-08-06
公开号:CN119107656A
公开日期:2024-12-10
类型:发明专利
摘要
本申请提供了一种基于纯文本数据的通用卡证识别模型构建方法及系统,根据本申请的方法包括:获取证件样张数据集,对所述证件样张数据集进行自定义数据扩增,得到纯文本信息提取数据集,将所述纯文本信息提取数据集分为训练集和验证集;以及将所述训练集输入至通用信息提取模型中进行训练,得到通用卡证识别模型,并通过所述验证集验证所述通用卡证识别模型,得到最终的通用卡证识别模型;所述方法进一步包括:通过所述最终的通用卡证识别模型对若干种类的证件进行识别与信息提取,并同时利用预构建的文本分类模型对若干种类的证件进行分类,根据分类结果对提取到的证件信息进行后处理,得到用户所需的证件信息。
技术关键词
文本信息提取
证件
识别模型构建方法
信息提取模型
文本分类模型
模型构建系统
数据模块
列表
训练集
可读存储介质
模板
处理器
语句
格式
存储器
计算机
对象
电子设备