一种基于动态微批次调度的分布式大模型推理优化方法和装置
申请号:CN202510966637
申请日期:2025-07-14
公开号:CN120723311A
公开日期:2025-09-30
类型:发明专利
摘要
一种基于动态微批次调度的分布式大模型推理优化方法和装置,其方法包括:(1)系统初始化,建立大模型分布式推理流水线;(2)评估各节点计算能力和网络状态并汇总到头节点;(3)根据请求分布情况、各节点算力及网络状态,确定Micro‑Batch数量及每个Micro‑Batch的调度配额;(4)采用Continuous Batching及Chunked Prefill策略依次调度Micro‑Batch并开始执行。本发明通过动态调整Micro‑Batch的数量,有效解决了分布式大模型推理系统中严重的流水线空泡问题,显著提高GPU利用率及系统吞吐量,同时对大模型推理领域的TTFT(首token时延)和TPOT(token间时延)等关键指标也有提升。本发明具有良好的适应性,能在不同硬件设备、网络条件和请求负载下自适应调整动态调度策略,适用于不同分布式大模型部署场景,具有广泛的应用价值。
技术关键词
节点
流水线
动态
时延
调度算法
策略
网络
系统吞吐量
推理装置
推理系统
配额
阶段
硬件设备
处理器
可读存储介质
存储器
程序
分块
队列
计算机