基于Spark分布式计算的商品名余弦相似度匹配方法

申请号：CN202410817653

申请日期：2024-06-24

公开号：CN118643354A

公开日期：2024-09-13

类型：发明专利

摘要

本发明提供一种基于Spark分布式计算的商品名余弦相似度匹配方法，包括：在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台，并将数据集上传到HDFS文件系统中；通过客户端向Spark平台提交作业，转换为弹性分布式数据集DataFrame并划分为训练集和测试集，将训练集划分为倾斜数据集和不倾斜数据集；对于倾斜数据集，进行join自连接后在分区内采用传统算法计算相似度；对于不倾斜数据集计算相似度；通过Catalyst优化策略，最后将结果输出。本发明解决对商品名特征向量维度过高、空间复杂度高、不便于存储和计算等问题，以及根据分区策略和优化算法去除无效计算。

技术关键词

HDFS文件系统分区策略训练集算法平台自定义函数分词字段噪声数据客户端服务器复杂度物理内存文本节点