摘要
本发明提供一种基于机器学习和超粒方的文本分类方法,包括:获取预处理后的文本数据集,并利用特征提取模型提取文本数据的特征向量;根据文本数据集中所有文本数据的特征向量构建初始超粒方;计算初始超粒方的纯度,若初始超粒方的纯度低于设定阈值,则将初始超粒方分割为多个互不重叠的超粒方;对新生成的超粒方重复上述计算纯度和分割的操作,直到所有超粒方的纯度都符合条件;根据每个超粒方中文本数据的标签利用多数原则确定每个超粒方的标签;将待分类文本数据所属超粒方的标签作为待分类文本数据的分类结果进行输出。本发明能够适应文本数据的独特性质,提升文本分类的性能与效率,推动文本分析技术的发展。