一种优化数据集的处理方法和装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种优化数据集的处理方法和装置
申请号:CN202411562480
申请日期:2024-11-05
公开号:CN119494032A
公开日期:2025-02-21
类型:发明专利
摘要
本发明实施例涉及一种优化数据集的处理方法和装置,所述方法包括:对目标模型输入数据的最大特征范围进行确认;并构建分类模型、降维模型;进行大数据采集;对采集数据集进行预处理;基于预处理数据集进行分类模型数据集构建得到对应的训练/评估集训练分类模型;训练结束后基于分类模型对预处理数据集进行同类数据去重;对去重数据集进行样本平衡和数据增强处理;基于增强后得到的第一数据集进行降维模型数据集构建得到对应的训练/评估集,并基于训练/评估集和目标模型对降维模型进行训练;训练结束后基于降维模型对第一数据集进行特征降维得到对应的优化数据集。通过本发明可以提高模型训练效率、增强模型泛化性、降低模型训练复杂度。
技术关键词
数据字 主成分分析方法 预测特征 标签 皮尔逊相关系数 序列 数据分类 协方差矩阵 优化器 分类模型训练 特征值 样本 字段 大数据 降维特征 训练集 机器学习模型 深度学习模型