一种基于大语言模型技术实现数据分类分级方法及其系统
申请号:CN202510392252
申请日期:2025-03-31
公开号:CN120277467A
公开日期:2025-07-08
类型:发明专利
摘要
一种基于大语言模型技术实现数据分类分级方法及其系统,方法包括:从多种数据源收集相关数据并进行预处理,形成标准化预处理数据集;从中获取文本数据,提取词频、TF‑IDF值、语义向量的特征,得到综合的特征向量;随机抽取一部分标准化预处理数据集,并划分和标注,得到标注后的训练集数据和测试集数据;训练分类分级模型;并选择最优的分类分级模型;将待分类分级的数据输入最优的分类分级模型,得到分类分级结果;系统包括:数据采集模块、数据处理模块、特征提取模块、数据标注模块、模型训练模块、模型评估模块和数据分类分级模块;本发明提升分类分级的科学性、准确性和高效性,满足企业和组织对数据分类分级管理的需求。
技术关键词
数据分类分级
大语言模型
训练集数据
语义向量
BERT模型
模型训练模块
特征提取模块
数据处理模块
数据采集模块
数据清洗算法
移动平均滤波
文本
文件系统
词语
格式
训练数据量
特征提取方法
关系型数据库