摘要
本发明实施例涉及一种优化数据集的处理方法和装置,所述方法包括:对目标模型输入数据的最大特征范围进行确认;并构建分类模型、降维模型;进行大数据采集;对采集数据集进行预处理;基于预处理数据集进行分类模型数据集构建得到对应的训练/评估集训练分类模型;训练结束后基于分类模型对预处理数据集进行同类数据去重;对去重数据集进行样本平衡和数据增强处理;基于增强后得到的第一数据集进行降维模型数据集构建得到对应的训练/评估集,并基于训练/评估集和目标模型对降维模型进行训练;训练结束后基于降维模型对第一数据集进行特征降维得到对应的优化数据集。通过本发明可以提高模型训练效率、增强模型泛化性、降低模型训练复杂度。