一种文档分类方法、装置、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种文档分类方法、装置、设备及介质
申请号:CN202510243351
申请日期:2025-03-03
公开号:CN120144761A
公开日期:2025-06-13
类型:发明专利
摘要
本说明书实施例公开了一种文档分类方法、装置、设备及介质,包括:获取预先生成的分类语料库;获取指定企业的领域词汇表;基于领域词汇表中的预设词汇与各文档的相关度,得到各文档的关键词;将多个文档特中的训练集文档与测试集文档,分别转化为由训练集文档的关键词的相关度组成的各训练集文档的第一特征向量,以及由测试集文档的关键词的相关度组成的各测试集文档的第二特征向量;基于各训练集文档的第一特征向量,训练得到文档分类器,文档分类器通过机器学习模型构建;基于第二特征向量对文档分类器进行测试评估;若文档分类器通过测试评估,将文档分类器进行部署,以便通过文档分类器对分类语料库的新增文档进行分类。
技术关键词
文档分类器 分类语料库 训练集 关键词 机器学习模型 文档分类方法 搜索词 非易失性计算机存储介质 计算机可执行指令 文档分类装置 朴素贝叶斯算法 支持向量机算法 企业级 分类器训练 决策树算法 分词技术 处理器