摘要
本发明公开了一种PCIE链路故障三层预警与自动修复方法及系统,包括以下具体步骤:硬件部署与初始化,在CPU的PCIE控制单元RC与PCIEendpoint设备之间设置具备链路故障处理功能的PCIEswitch;错误数据方向解析,当PCIEendpoint设备发生链路错误时,通过PCIEswitch解析错误数据的传输方向;三级预警机制执行,基于电气层、协议层、业务层进行三级预警:电气层采集BER、信号摆幅、时钟抖动参数;协议层通过TLP包CRC错误计数触发预警;业务层通过心跳包交互监测时钟源异常,该发明,通过硬件直通模式实现热插拔部署,无需修改CPU驱动或设备固件,修复过程完全由switch独立完成,避免传统方案中操作系统干预导致的链路重置与设备重启。实测修复总耗时控制在微秒级。