摘要
本发明提供一种基于不平衡数据集的文本合规检测方法,属于文本处理技术领域,包括:对大模型数据集进行采集和预处理,确定第一数据,并确定词汇表;基于词汇表对第一数据进行编码和降维处理,确定第一数据中每条第一语句的第二编码向量;确定第一数据中每两个第一语句的子词汇向量相似值以及综合相似值,并对第一数据进行分类确定第一类别、第一类别中每个类别的第一类别数据以及第二类别数据;基于第二类别数据构建分类模型,基于分类模型对大模型数据进行处理。可以提升了文本处理的速度和准确率,加强大模型服务提供者在数据训练和内容生成过程中的合规性监管的同时,保障信息传播的安全性和合规性,提高大模型的适应性和泛化能力。