样本集的划分方法、系统、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
样本集的划分方法、系统、设备及介质
申请号:CN202510708811
申请日期:2025-05-29
公开号:CN120744518A
公开日期:2025-10-03
类型:发明专利
摘要
本发明涉及数据筛选领域,具体涉及一种样本集的划分方法、系统、设备及介质,包括:获取样本集;根据样本集中样本的数量,确定至少一个自适应分群基数;对每个自适应分群基数:根据数据相似性将样本集划分为k个数据子集;按照预设比例,从每个数据子集中选取对应数量的目标样本;组合所有目标样本,得到自适应分群基数对应的筛选子集;计算每个筛选子集与样本集的分布匹配度,筛选分布匹配度最低的筛选子集作为测试集,剩余样本作为训练集。本发明提取的测试集与训练集在特征分布上与原始样本集高度一致,从而提高了机器学习模型性能评估的准确性和可靠性,降低了过拟合和欠拟合的风险,提升了模型的泛化能力和实用价值。
技术关键词
样本 分群 划分方法 数据 评估算法 训练集 划分系统 机器学习模型 处理器 组合模块 分块 存储器 电子设备 介质 风险