一种优化数据集的处理方法和装置

申请号：CN202411562480

申请日期：2024-11-05

公开号：CN119494032A

公开日期：2025-02-21

类型：发明专利

摘要

本发明实施例涉及一种优化数据集的处理方法和装置，所述方法包括：对目标模型输入数据的最大特征范围进行确认；并构建分类模型、降维模型；进行大数据采集；对采集数据集进行预处理；基于预处理数据集进行分类模型数据集构建得到对应的训练/评估集训练分类模型；训练结束后基于分类模型对预处理数据集进行同类数据去重；对去重数据集进行样本平衡和数据增强处理；基于增强后得到的第一数据集进行降维模型数据集构建得到对应的训练/评估集，并基于训练/评估集和目标模型对降维模型进行训练；训练结束后基于降维模型对第一数据集进行特征降维得到对应的优化数据集。通过本发明可以提高模型训练效率、增强模型泛化性、降低模型训练复杂度。

技术关键词

数据字主成分分析方法预测特征标签皮尔逊相关系数序列数据分类协方差矩阵优化器分类模型训练特征值样本字段大数据降维特征训练集机器学习模型深度学习模型