一种用于专利分类的方法和系统

申请号：CN202410861528

申请日期：2024-06-28

公开号：CN118690246A

公开日期：2024-09-24

类型：发明专利

摘要

本申请涉及数据处理技术领域，公开了一种用于专利分类的方法和系统，包括：对有标签数据集进行数据扩充后训练分类模型，得到第一分类模型；使用第一分类模型对无标签数据集进行分类，将分类结果中置信度大于预设置信度阈值的所有无标签数据作为第一待补充数据；根据分类结果、第一待补充数据和无标签数据集的聚类结果确定第二待补充数据；对第二待补充数据进行扩充后加入至扩充后的有标签数据集，对第一分类模型进行训练，得到训练好的分类模型。本申请能够获取高质量的无标签数据，将其进行扩充后加入至有标签数据集对第一分类模型进行训练，从而将高质量无标签数据的数量用于模型训练，充分利用无标签专利数据得到准确度高的分类模型。

技术关键词

无标签数据训练分类模型置信度阈值聚类文本数据处理技术数据获取模块样本