摘要
本发明涉及一种基于图神经网络的并行程序性能轨迹分析方法,其方法包括:执行一定规模的MPI并行应用程序,同时利用性能采集工具收集硬件性能数据与通信数据;对性能轨迹数据进行时间切片;将性能数据形成固定维度的标准化向量,将通信关系信息形成邻接列表共同作为动态图神经网络的输入;利用基于VAE的无监督学习方法训练动态图神经网络并得到训练后的模型;将性能轨迹数据输入网络模型,前向传播后得到每个时间片中每个进程的异常分数,设置阈值筛选出异常点;利用函数调用栈分析方法确定根因,生成性能分析报告。本发明结合无监督学习方法自动化地识别程序执行异常,可适用于MPI并行程序在任意规模下的性能轨迹分析。