一种基于CPU和GPU协同的混合专家模型推理方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于CPU和GPU协同的混合专家模型推理方法
申请号:CN202510254307
申请日期:2025-03-05
公开号:CN120235253A
公开日期:2025-07-01
类型:发明专利
摘要
本发明公开了一种基于CPU和GPU协同的混合专家模型推理方法,属于深度学习(machine learning)领域。本发明构建混合专家模型的CPU‑GPU计算框架,有效平衡异构计算资源负载,显著提升硬件利用率;且提供基于动态优先级分数的智能缓存管理机制,优先保留高需求专家,降低缓存缺失引发的传输开销;通过分离计算与传输任务的流水线并行设计,实现CPU计算与PCIe传输在GPU执行期间的重叠,有效隐藏延迟。此外,结合多层专家激活预测的前瞻性预取机制,提高专家缓存命中率。本发明兼容不同规模与结构的混合专家模型,在资源受限的异构平台上实现稳定高效的推理加速。
技术关键词
推理方法 队列 预取机制 缓存命中率 异构平台 流水线 高需求 时延 动态 资源 内存 受限 列表 规模 策略 序列 框架 模式