一种高相似性重复数据清洗方法、系统、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种高相似性重复数据清洗方法、系统、设备及介质
申请号:CN202510525538
申请日期:2025-04-25
公开号:CN120805880A
公开日期:2025-10-17
类型:发明专利
摘要
本发明提供一种高相似性重复数据清洗方法、系统、设备及介质,涉及高相似性重复数据清洗技术领域,包括读取文本数据集;对文本数据集进行哈希化处理与集群划分,得到相似重复数据集群和非重复数据集群;执行查重操作和去重操作,得到重复数据集和去重后数据集;对重复数据集和去重后数据集分别进行抽样核查,纠正误判数据并动态优化哈希函数的参数。本发明可准确识别文本数据集中地高相似性重复数据,实现大规模文本数据集的高效清洗,同时可以实现动态优化,适应性强。
技术关键词
数据清洗方法 集群 数据项 大规模文本数据 停用词表 数据清洗系统 文本数据提取 数据清洗技术 迭代优化算法 模运算 字节流 处理器 动态 参数 介质 代表 序列 数据存储