摘要
本发明提供一种基于语义与时序的超级计算机作业时长预测方法,涉及超级计算机领域,解决了超级计算机作业运行时长预测中忽略作业路径中语义信息和作业间时序信息的问题。方法首先获取作业日志数据,通过数据分组区分不同用户类型,采用不同数据存储方式存储用户的作业日志数据,通过粗粒度聚类方式形成用户的模型训练集;随后通过改进BERT架构的方式构建作业运行时长的预测模型并进行模型训练,训练过程中结合时序预测方式,使预测模型基于时序信息预测新作业的时序;训练完成后,用户提交新作业的作业路径信息,预测模型确定新作业的作业类别并输出作业运行时长。本发明使作业运行时长的预测准确率得到了提高,方便后续的回填调度。