摘要
本发明公开了一种基于指令语义增强的高性能计算设备错误弹性预测方法,包括:获取高性能计算程序的汇编指令序列与偏移地址信息;进行单粒子翻转故障模拟,获取少量高性能计算设备故障样本;生成指令语义嵌入,从而封装目标高性能计算程序指令的语义;分析指令之间的控制执行和数据依赖关系,构建两个指令拓扑图,并利用图神经网络对此建模,提取错误传播模式;将从不同图中提取的故障嵌入相结合进行错误弹性预测。本发明对高性能计算程序进行指令语义表征,可以更好地理解高性能计算程序的弹性特点,通过建模高性能计算程序在比特级别的错误传播,无需大量故障模拟,实现了准确的错误弹性预测,极大地节省了计算资源与开销,并且可以灵活适用于高性能计算设备上运行的各种高性能计算程序。