摘要
本发明公开了电气化铁路供电设备在线诊断数据预处理方法及系统,获取包含n个维度的原始数据集;根据原始数据集中每个维度的数据类型,对其进行随机污染,得到随机污染数据集;拼接原始数据集与随机污染数据集构成复合数据集;采用随机森林算法为复合数据集生成重要性矩阵;基于此,对原始数据集中每个维度进行重要性评分;重复上述步骤,对原始数据集中每个维度的重要性评分累加后排序,保留评分最高的前m个维度,删除剩余n‑m个维度,得到预处理数据集;与现有方法相比,本发明具有实时性高、降维精度高、可解释性强、经济性强的优势。