一种基于语言模型的中文敏感词检测与纠正方法

申请号：CN202510663494

申请日期：2025-05-22

公开号：CN120851005A

公开日期：2025-10-28

类型：发明专利

摘要

本发明提出一种基于语言模型的中文敏感词检测与纠正方法，其特点是采用用开源工具构建汉字近音关系图和敏感词表的方法，对用户评论内容进行潜在敏感词检测，对于检测到的若干敏感词，使用语言模型迭代筛选，该方法通过综合汉字近音关系图和敏感词库检测潜在敏感词，并基于预训练语言模型设计了无需训练微调和提示词的筛选方法，能有效纠正用户刻意用近音字掩盖的敏感词。本发明与现有技术相比具有对用户刻意进行近音字替换的敏感词进行纠正，从而辅助平台检测用户的仇恨、侮辱性言论，维护和谐健康的网络环境，方法简便，具有良好的运用前景。

技术关键词

纠正方法汉字 BERT模型预训练语言模型文本拼音关系词语滑动窗口算法数据开源工具筛选算法辅助平台大语言模型字符节点筛选方法关键词爬虫

系统为您推荐了相关专利信息

农作物病虫害的模型训练方法

模型训练方法人工智能模型文本特征向量图像特征向量三元组损失函数

一种基于多处理器协同系统的自适应任务调度方法

任务调度方法协同系统多处理器线性回归方程线性回归模型

一种基于大模型和语义图谱的智能问答实现方法及系统

语义图谱命名实体识别大语言模型动态神经网络训练

重大工程项目突发事件的多维情景空间构建方法和装置

情景语义向量阶段空间构建方法社会

一种基于嵌入向量实现运维知识搜索的方法

分析方法运维排序方法字符索引