一种基于机器学习和超粒方的文本分类方法

申请号：CN202510609564

申请日期：2025-05-13

公开号：CN120492630A

公开日期：2025-08-15

类型：发明专利

摘要

本发明提供一种基于机器学习和超粒方的文本分类方法，包括：获取预处理后的文本数据集，并利用特征提取模型提取文本数据的特征向量；根据文本数据集中所有文本数据的特征向量构建初始超粒方；计算初始超粒方的纯度，若初始超粒方的纯度低于设定阈值，则将初始超粒方分割为多个互不重叠的超粒方；对新生成的超粒方重复上述计算纯度和分割的操作，直到所有超粒方的纯度都符合条件；根据每个超粒方中文本数据的标签利用多数原则确定每个超粒方的标签；将待分类文本数据所属超粒方的标签作为待分类文本数据的分类结果进行输出。本发明能够适应文本数据的独特性质，提升文本分类的性能与效率，推动文本分析技术的发展。

技术关键词

文本分类方法特征提取模型数据 Word2Vec模型计算机存储介质标签文本分析技术词袋模型特征值处理器样本顶点存储器坐标程序