一种基于不平衡数据集的文本合规检测方法

申请号：CN202510141591

申请日期：2025-02-08

公开号：CN120144767A

公开日期：2025-06-13

类型：发明专利

摘要

本发明提供一种基于不平衡数据集的文本合规检测方法，属于文本处理技术领域，包括：对大模型数据集进行采集和预处理，确定第一数据，并确定词汇表；基于词汇表对第一数据进行编码和降维处理，确定第一数据中每条第一语句的第二编码向量；确定第一数据中每两个第一语句的子词汇向量相似值以及综合相似值，并对第一数据进行分类确定第一类别、第一类别中每个类别的第一类别数据以及第二类别数据；基于第二类别数据构建分类模型，基于分类模型对大模型数据进行处理。可以提升了文本处理的速度和准确率，加强大模型服务提供者在数据训练和内容生成过程中的合规性监管的同时，保障信息传播的安全性和合规性，提高大模型的适应性和泛化能力。

技术关键词

合规检测方法语句覆盖率编码向量构建分类模型合规性序列协方差矩阵文本处理技术数据分类索引同义词正则化参数数据格式特征值

系统为您推荐了相关专利信息

一种基于清洁服务的智慧管理方法和系统

智慧管理方法心率装备划分算法周期

基于大语言模型的训练语料生成方法、装置、介质及设备

结构化查询语句大语言模型自然语言语料生成方法样本

一种文学作品集分析方法及系统

语句分析方法通信模块对象文本

一种面向灵枢等离子体控制系统的智能算法开发辅助工具

等离子体控制系统开发辅助工具可视化模块智能算法生成代码框架

基于动作感知的智能音乐教学辅助系统及方法

音乐教学辅助系统图像特征编码编码向量隐式特征拓扑特征