一种基于CPU和GPU协同的混合专家模型推理方法

申请号：CN202510254307

申请日期：2025-03-05

公开号：CN120235253A

公开日期：2025-07-01

类型：发明专利

摘要

本发明公开了一种基于CPU和GPU协同的混合专家模型推理方法，属于深度学习(machine learning)领域。本发明构建混合专家模型的CPU‑GPU计算框架，有效平衡异构计算资源负载，显著提升硬件利用率；且提供基于动态优先级分数的智能缓存管理机制，优先保留高需求专家，降低缓存缺失引发的传输开销；通过分离计算与传输任务的流水线并行设计，实现CPU计算与PCIe传输在GPU执行期间的重叠，有效隐藏延迟。此外，结合多层专家激活预测的前瞻性预取机制，提高专家缓存命中率。本发明兼容不同规模与结构的混合专家模型，在资源受限的异构平台上实现稳定高效的推理加速。

技术关键词

推理方法队列预取机制缓存命中率异构平台流水线高需求时延动态资源内存受限列表规模策略序列框架模式