摘要
本发明属于AI数据源异常处理技术领域,具体涉及基于AI服务器冗余系统的数据源故障处理方法及系统,启动服务器时对其CPU系统中各CPU的状态参数进行检测,并以最佳优先级执行;实时监测当前运行CPU的状态,判断其是否异常,并切换至匹配的CPU,根据匹配结果更新当前优先级;匹配的CPU的DIMM内存条下发算法指令在匹配的CPU的NPU模组上重新计算;实时监测NPU的状态参数,执行最佳优先级;实时监测当前运行的各NPU状态,判断是否异常,执行最佳优先级;CPU将数据源下发给到匹配的NPU多计算一份,CPU再将解析后的数据源保存数据于NVMe盘。有效保障数据源不会随意丢失。