一种基于聚类预处理的大模型文本审核优化方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于聚类预处理的大模型文本审核优化方法
申请号:CN202510286755
申请日期:2025-03-12
公开号:CN119807427A
公开日期:2025-04-11
类型:发明专利
摘要
本发明公开了一种基于聚类预处理的大模型文本审核优化方法,涉及自然语言处理技术领域,包括以下步骤:S1、对输入的原始文本数据进行预处理,所述预处理包括:文本清洗、分词、去除停用词和标点符号,生成标准化文本向量,预处理时采用TF‑IDF算法计算文本特征权重,生成高维特征向量矩阵。本发明提出大模型文本审核优化方法通过聚类预处理,将文本划分为具有相似语义或主题内容的簇,并针对每个簇构建专门的审核模型,这使得模型能够更精准地理解文本内容,从而提高了审核的准确率,同时,由于聚类减少了需要处理的数据量,模型的计算效率也得到了显著提升,不断调整聚类中心向量及簇划分规则,实现了模型的闭环优化。
技术关键词
轮廓系数 文本 聚类 样本 审核模型 动态反馈机制 知识蒸馏技术 高维特征向量 数据自动更新 综合评估模型 预训练语言模型 滑动窗口机制 模拟退火算法 方差贡献率 学生 矩阵 分词 教师 噪声强度
系统为您推荐了相关专利信息
文本 子系统 数据 问答方法 语义
光伏功率预测方法 光伏功率预测系统 模型超参数 数据真实值 注意力
归集方法 知识点标签 图像 执行透视变换 痕迹特征
注释方法 单细胞转录组数据 大语言模型 基因 投票算法