一种高相似性重复数据清洗方法、系统、设备及介质
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
一种高相似性重复数据清洗方法、系统、设备及介质
申请号:
CN202510525538
申请日期:
2025-04-25
公开号:
CN120805880A
公开日期:
2025-10-17
类型:
发明专利
摘要
本发明提供一种高相似性重复数据清洗方法、系统、设备及介质,涉及高相似性重复数据清洗技术领域,包括读取文本数据集;对文本数据集进行哈希化处理与集群划分,得到相似重复数据集群和非重复数据集群;执行查重操作和去重操作,得到重复数据集和去重后数据集;对重复数据集和去重后数据集分别进行抽样核查,纠正误判数据并动态优化哈希函数的参数。本发明可准确识别文本数据集中地高相似性重复数据,实现大规模文本数据集的高效清洗,同时可以实现动态优化,适应性强。
技术关键词
数据清洗方法
集群
数据项
大规模文本数据
停用词表
数据清洗系统
文本数据提取
数据清洗技术
迭代优化算法
模运算
字节流
处理器
动态
参数
介质
代表
序列
数据存储