一种基于Transformer的半监督文本分类算法
申请号:CN202410714654
申请日期:2024-06-04
公开号:CN118585646A
公开日期:2024-09-03
类型:发明专利
摘要
本发明公开了一种基于Transformer的半监督文本分类算法,涉及文本分类算法技术领域,包括以下步骤:步骤1:数据预处理;步骤2:数据划分;步骤3:Transformer模型训练;步骤4:打标:步骤5:置信度筛选;步骤6:随机化;步骤7:模型训练;步骤8:模型评估。本发明中,利用置信度以及随机化技术,只需要在小部分标注数据的基础上,就能接近原先需要大量标注数据的分类效果,从而大幅提高了文本分类的效率。
技术关键词
监督文本分类
训练集
bert模型
文本分类算法
策略
梯度下降算法
模型主体
中文分词
解码器
数据
样本
比率
网络结构
参数
编码器
阶段
模块
框架