一种基于不平衡数据集的文本合规检测方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于不平衡数据集的文本合规检测方法
申请号:CN202510141591
申请日期:2025-02-08
公开号:CN120144767A
公开日期:2025-06-13
类型:发明专利
摘要
本发明提供一种基于不平衡数据集的文本合规检测方法,属于文本处理技术领域,包括:对大模型数据集进行采集和预处理,确定第一数据,并确定词汇表;基于词汇表对第一数据进行编码和降维处理,确定第一数据中每条第一语句的第二编码向量;确定第一数据中每两个第一语句的子词汇向量相似值以及综合相似值,并对第一数据进行分类确定第一类别、第一类别中每个类别的第一类别数据以及第二类别数据;基于第二类别数据构建分类模型,基于分类模型对大模型数据进行处理。可以提升了文本处理的速度和准确率,加强大模型服务提供者在数据训练和内容生成过程中的合规性监管的同时,保障信息传播的安全性和合规性,提高大模型的适应性和泛化能力。
技术关键词
合规检测方法 语句 覆盖率 编码向量 构建分类模型 合规性 序列 协方差矩阵 文本处理技术 数据分类 索引 同义词 正则化参数 数据格式 特征值
系统为您推荐了相关专利信息
智慧管理方法 心率 装备 划分算法 周期
结构化查询语句 大语言模型 自然语言 语料生成方法 样本
语句 分析方法 通信模块 对象 文本
等离子体控制系统 开发辅助工具 可视化模块 智能算法 生成代码框架
音乐教学辅助系统 图像特征编码 编码向量 隐式特征 拓扑特征