基于自注意力的无服务器应用场景的推理模型分区方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于自注意力的无服务器应用场景的推理模型分区方法
申请号:CN202510667886
申请日期:2025-05-23
公开号:CN120181246B
公开日期:2025-08-26
类型:发明专利
摘要
本发明公开了一种基于自注意力的无服务器应用场景的推理模型分区方法,该方法包括:步骤1:提取复合推理模型CIM的各子推理单元ISU中算子的性能数据,并对算子性能数据进行合并以及预处理;步骤2:构建基于XGBoost的资源预测模型;步骤3:对基于XGBoost的资源预测模型输出的数据进行层级合并与汇总,获得子推理单元的性能数据;步骤4:基于自注意力机制,对子推理单元的性能数据进行分析获得复合推理模型的层间依赖关系,生成分区策略;步骤5:依据分区策略,对复合推理模型进行分区,将每个分区对应的子模块封装为无服务器函数,完成独立部署分区。
技术关键词
分区策略 内存 数据 注意力机制 层级 分区方法 通信量 混合结构 XGBoost模型 瓶颈 资源 矩阵 服务器 模型超参数 关系 分支 复杂度 频率