一种基于nsp的对ocr的文本聚类去噪方法
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
一种基于nsp的对ocr的文本聚类去噪方法
申请号:
CN202510167602
申请日期:
2025-02-17
公开号:
CN119625745A
公开日期:
2025-03-14
类型:
发明专利
摘要
本发明提出一种基于nsp的对ocr的文本聚类去噪方法,涉及噪音数据识别技术领域,包括获取数据、聚类、获取簇心、簇心的处理以及去噪处理五个步骤,本发明提供一种结合上下文语义分析与聚类分析的一种方法,利用bert模型中的nsp任务模型进行聚类,再对结果进行分析,得到离散的噪音数据,具有通用性以及简便性,由此本发明能够在不同场景和条件下工作,无论是处理高分辨率的扫描文档还是低质量的手机拍摄图像,能够识别并过滤掉那些不相关或错误的文本信息,以确保最终输出的数据是准确和可靠的。
技术关键词
文本
语义相关度
手机拍摄图像
bert模型
数据识别技术
度计算方法
聚类
简便性
参数
校正
场景
系统为您推荐了相关专利信息
1
一种基于卷积神经网络的机顶盒终端语音控制方法及装置
终端语音控制方法
卷积神经网络模型
识别模型训练
生成指令
音频
2
基于LBS和动态权重的房源实时匹配系统及方法
语义
地理空间信息
校准策略
网络
路况信息
3
一种用于语音处理的数据监控系统及方法
语音
数据监控系统
音频
发声
数据监控方法
4
一种基于电力生产领域的知识图谱构建方法、系统、设备及介质
知识图谱构建方法
文本
实体关系抽取
HMM模型
数据
5
一种多模态医疗信息融合方法
信息融合方法
协同学习方法
文本数据提取
表达式
融合特征