摘要
本申请提供一种面向大规模深度学习的处理器系统及运行方法,属于处理器架构设计技术领域,所述系统包括主机、专家片上网络以及若干GPU加速卡;专家片上网络进行主机与各GPU加速卡之间的通信;GPU加速卡包括若干专家处理模块;CPU用于系统配置、任务部署及进程监控,响应深度学习模型处理请求,并发送至专家通信控制终端节点;专家通信控制终端节点根据深度学习模型的输入数据特征,将深度学习模型处理请求拆分为若干子任务,计算专家处理模块的匹配得分;调度子任务至目标专家处理模块,聚合计算专家处理模块处理结果;通过专家片上网络与GPU加速卡通信。本发明减轻CPU负担,提升任务分发效率和GPU利用率,优化通信性能。