摘要
本发明公开了一种基于CPU和GPU协同的混合专家模型推理方法,属于深度学习(machine learning)领域。本发明构建混合专家模型的CPU‑GPU计算框架,有效平衡异构计算资源负载,显著提升硬件利用率;且提供基于动态优先级分数的智能缓存管理机制,优先保留高需求专家,降低缓存缺失引发的传输开销;通过分离计算与传输任务的流水线并行设计,实现CPU计算与PCIe传输在GPU执行期间的重叠,有效隐藏延迟。此外,结合多层专家激活预测的前瞻性预取机制,提高专家缓存命中率。本发明兼容不同规模与结构的混合专家模型,在资源受限的异构平台上实现稳定高效的推理加速。