摘要
本发明涉及机器学习标记噪声识别技术领域。现有噪声过滤方法在处理大规模数据集时间复杂度高且难以自适应学习有用特征使其无法有效识别噪声;深度神经网络虽然具有较强的特征提取能力,但由于模型的表达能力较强使其可以有效拟合一定比例的标记噪声。为解决现有技术的不足,本发明利用深度神经网络提取对标记噪声识别有用的特征;利用模糊允许损失降低深度神经网络拟合标记噪声的风险;利用二次学习机制完成对标记噪声的初筛和识别,其中首次学习利用标记干净度区分高、低置信度样本,完成对标记噪声的初筛,二次学习利用样例集完成对标记噪声的识别。本发明充分利用模糊学习机的特征表示与模糊容忍能力,能够有效地提升标记噪声识别性能,减少了噪声对分类模型的影响。