基于Spark分布式计算的商品名余弦相似度匹配方法
申请号:CN202410817653
申请日期:2024-06-24
公开号:CN118643354A
公开日期:2024-09-13
类型:发明专利
摘要
本发明提供一种基于Spark分布式计算的商品名余弦相似度匹配方法,包括:在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台,并将数据集上传到HDFS文件系统中;通过客户端向Spark平台提交作业,转换为弹性分布式数据集DataFrame并划分为训练集和测试集,将训练集划分为倾斜数据集和不倾斜数据集;对于倾斜数据集,进行join自连接后在分区内采用传统算法计算相似度;对于不倾斜数据集计算相似度;通过Catalyst优化策略,最后将结果输出。本发明解决对商品名特征向量维度过高、空间复杂度高、不便于存储和计算等问题,以及根据分区策略和优化算法去除无效计算。
技术关键词
HDFS文件系统
分区策略
训练集
算法
平台
自定义函数
分词
字段
噪声数据
客户端
服务器
复杂度
物理
内存
文本
节点