一种基于语言模型的中文敏感词检测与纠正方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于语言模型的中文敏感词检测与纠正方法
申请号:CN202510663494
申请日期:2025-05-22
公开号:CN120851005A
公开日期:2025-10-28
类型:发明专利
摘要
本发明提出一种基于语言模型的中文敏感词检测与纠正方法,其特点是采用用开源工具构建汉字近音关系图和敏感词表的方法,对用户评论内容进行潜在敏感词检测,对于检测到的若干敏感词,使用语言模型迭代筛选,该方法通过综合汉字近音关系图和敏感词库检测潜在敏感词,并基于预训练语言模型设计了无需训练微调和提示词的筛选方法,能有效纠正用户刻意用近音字掩盖的敏感词。本发明与现有技术相比具有对用户刻意进行近音字替换的敏感词进行纠正,从而辅助平台检测用户的仇恨、侮辱性言论,维护和谐健康的网络环境,方法简便,具有良好的运用前景。
技术关键词
纠正方法 汉字 BERT模型 预训练语言模型 文本 拼音 关系 词语 滑动窗口算法 数据 开源工具 筛选算法 辅助平台 大语言模型 字符 节点 筛选方法 关键词 爬虫
系统为您推荐了相关专利信息
模型训练方法 人工智能模型 文本特征向量 图像特征向量 三元组损失函数
任务调度方法 协同系统 多处理器 线性回归方程 线性回归模型
语义图谱 命名实体识别 大语言模型 动态 神经网络训练
情景 语义向量 阶段 空间构建方法 社会
分析方法 运维 排序方法 字符 索引