摘要
本发明公开了一种基于机器学习的数据表复合主键发现方法,其步骤包括:1)对于一样本集,首先识别每一样本的最小UCC的列表;其中,每一样本为一数据表,将不包含重复内容且可用于索引的组合列称为唯一组合列UCC,将不包含其他UCC的UCC定义为最小唯一组合列,即最小UCC;2)对样本的每一最小UCC进行特征提取组合,得到该样本的每一最小UCC的特征向量;3)利用各样本的特征向量训练分类器;4)针对一个待处理数据表A,获取数据表A的各最小UCC对应的特征向量并输入随机森林分类器,得到数据表A的用于生成复合主键的最小UCC,据此生成数据表A的复合主键。本发明仅靠数据表内在信息即可实现复合主键的识别。