一种提升文本内容识别和分类方法、系统和计算机设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种提升文本内容识别和分类方法、系统和计算机设备
申请号:CN202510597193
申请日期:2025-05-09
公开号:CN120449878A
公开日期:2025-08-08
类型:发明专利
摘要
本发明提供一种提升文本内容识别和分类方法、系统和计算机设备,接收用户的输入文本;通过分词器切分输入文本得到文本分词集合;基于数据增广策略和文本分词集合,扩充关键词词表和语义检测模型得到扩写关键词词表和扩充语义模型训练数据;判断文本分词集合与扩写关键词词表是否匹配;若否,则将文本分词集合处理为模型格式得到处理文本;将处理文本输入预训练语义检测模型,通过置信度阈值判断处理文本是否为不合规文本或敏感文本;若否,则输出处理文本。本发明通过关键词匹配和语义检测模型的分级处理架构,结合数据增广与边缘端轻量化部署,平衡实时处理与高准确性的需求,提升文本识别与处理的实时性,适用于多种应用场景。
技术关键词
文本 语义 分类方法 置信度阈值 分词 组合关键词 计算机存储介质 生成有向无环图 扩充模块 计算机设备 数据 模式 输出模块 分类器 增量更新 策略 日志 分类系统