一种基于文本特征分析的过滤方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于文本特征分析的过滤方法及系统
申请号:CN202510914127
申请日期:2025-07-03
公开号:CN120706423A
公开日期:2025-09-26
类型:发明专利
摘要
本发明提供了一种基于文本特征分析的过滤方法及系统,包括:对接收的输入文本进行敏感词过滤删除,获得一次过滤文本;对一次过滤文本进行初次分词,并对初次分词结果进行初次词频统计;计算初次分词结果中相邻词语的凝聚度得分,基于凝聚度阈值与凝聚度得分的比较结果,确定进行词语合并的相邻词语并执行合并操作,获得二次过滤文本;对二次过滤文本进行二次词频统计,在二次词频统计结果中筛选词频高于预设阈值的词语,并在自定义的领域词典中进行匹配查找,确定输入文本所属的领域场景。本发明作为大语言模型语料库优化的一项个性化的方案,降低了成本的同时,保证了大语言模型语料库的安全性,为开发者提供了有效便捷的过滤途径。
技术关键词
文本特征分析 词频统计 词语 过滤方法 分词词典 关键词 过滤系统 过滤单元 指令 场景 大语言模型 界面 标识