一种基于大语言模型技术实现数据分类分级方法及其系统

申请号：CN202510392252

申请日期：2025-03-31

公开号：CN120277467A

公开日期：2025-07-08

类型：发明专利

摘要

一种基于大语言模型技术实现数据分类分级方法及其系统，方法包括：从多种数据源收集相关数据并进行预处理，形成标准化预处理数据集；从中获取文本数据，提取词频、TF‑IDF值、语义向量的特征，得到综合的特征向量；随机抽取一部分标准化预处理数据集，并划分和标注，得到标注后的训练集数据和测试集数据；训练分类分级模型；并选择最优的分类分级模型；将待分类分级的数据输入最优的分类分级模型，得到分类分级结果；系统包括：数据采集模块、数据处理模块、特征提取模块、数据标注模块、模型训练模块、模型评估模块和数据分类分级模块；本发明提升分类分级的科学性、准确性和高效性，满足企业和组织对数据分类分级管理的需求。

技术关键词

数据分类分级大语言模型训练集数据语义向量 BERT模型模型训练模块特征提取模块数据处理模块数据采集模块数据清洗算法移动平均滤波文本文件系统词语格式训练数据量特征提取方法关系型数据库