摘要
本发明公开了一种基于自注意力的无服务器应用场景的推理模型分区方法,该方法包括:步骤1:提取复合推理模型CIM的各子推理单元ISU中算子的性能数据,并对算子性能数据进行合并以及预处理;步骤2:构建基于XGBoost的资源预测模型;步骤3:对基于XGBoost的资源预测模型输出的数据进行层级合并与汇总,获得子推理单元的性能数据;步骤4:基于自注意力机制,对子推理单元的性能数据进行分析获得复合推理模型的层间依赖关系,生成分区策略;步骤5:依据分区策略,对复合推理模型进行分区,将每个分区对应的子模块封装为无服务器函数,完成独立部署分区。