一种基于机器学习的数据表复合主键发现方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于机器学习的数据表复合主键发现方法
申请号:CN202411113873
申请日期:2024-08-14
公开号:CN119248766A
公开日期:2025-01-03
类型:发明专利
摘要
本发明公开了一种基于机器学习的数据表复合主键发现方法,其步骤包括:1)对于一样本集,首先识别每一样本的最小UCC的列表;其中,每一样本为一数据表,将不包含重复内容且可用于索引的组合列称为唯一组合列UCC,将不包含其他UCC的UCC定义为最小唯一组合列,即最小UCC;2)对样本的每一最小UCC进行特征提取组合,得到该样本的每一最小UCC的特征向量;3)利用各样本的特征向量训练分类器;4)针对一个待处理数据表A,获取数据表A的各最小UCC对应的特征向量并输入随机森林分类器,得到数据表A的用于生成复合主键的最小UCC,据此生成数据表A的复合主键。本发明仅靠数据表内在信息即可实现复合主键的识别。
技术关键词
训练分类器 样本 随机森林 列表 数据清洗技术 存储计算机程序 文本 采样方法 处理器 算法 可读存储介质 索引 存储器 定义 服务器 指令