一种基于nsp的对ocr的文本聚类去噪方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于nsp的对ocr的文本聚类去噪方法
申请号:CN202510167602
申请日期:2025-02-17
公开号:CN119625745A
公开日期:2025-03-14
类型:发明专利
摘要
本发明提出一种基于nsp的对ocr的文本聚类去噪方法,涉及噪音数据识别技术领域,包括获取数据、聚类、获取簇心、簇心的处理以及去噪处理五个步骤,本发明提供一种结合上下文语义分析与聚类分析的一种方法,利用bert模型中的nsp任务模型进行聚类,再对结果进行分析,得到离散的噪音数据,具有通用性以及简便性,由此本发明能够在不同场景和条件下工作,无论是处理高分辨率的扫描文档还是低质量的手机拍摄图像,能够识别并过滤掉那些不相关或错误的文本信息,以确保最终输出的数据是准确和可靠的。
技术关键词
文本 语义相关度 手机拍摄图像 bert模型 数据识别技术 度计算方法 聚类 简便性 参数 校正 场景
系统为您推荐了相关专利信息
终端语音控制方法 卷积神经网络模型 识别模型训练 生成指令 音频
语义 地理空间信息 校准策略 网络 路况信息
语音 数据监控系统 音频 发声 数据监控方法
知识图谱构建方法 文本 实体关系抽取 HMM模型 数据
信息融合方法 协同学习方法 文本数据提取 表达式 融合特征