基于Spark分布式计算的商品名余弦相似度匹配方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于Spark分布式计算的商品名余弦相似度匹配方法
申请号:CN202410817653
申请日期:2024-06-24
公开号:CN118643354A
公开日期:2024-09-13
类型:发明专利
摘要
本发明提供一种基于Spark分布式计算的商品名余弦相似度匹配方法,包括:在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台,并将数据集上传到HDFS文件系统中;通过客户端向Spark平台提交作业,转换为弹性分布式数据集DataFrame并划分为训练集和测试集,将训练集划分为倾斜数据集和不倾斜数据集;对于倾斜数据集,进行join自连接后在分区内采用传统算法计算相似度;对于不倾斜数据集计算相似度;通过Catalyst优化策略,最后将结果输出。本发明解决对商品名特征向量维度过高、空间复杂度高、不便于存储和计算等问题,以及根据分区策略和优化算法去除无效计算。
技术关键词
HDFS文件系统 分区策略 训练集 算法 平台 自定义函数 分词 字段 噪声数据 客户端 服务器 复杂度 物理 内存 文本 节点