一种基于服务请求密度预测的低能耗神经网络推理方法与装置
申请号:CN202410785986
申请日期:2024-06-18
公开号:CN119003111A
公开日期:2024-11-22
类型:发明专利
摘要
一种基于服务请求密度预测的低能耗神经网络推理方法与装置,所述方法包括以下步骤:S1、神经网络推理服务器根据神经网络运行服务请求密度的潮汐现象,构建推理服务时间段内服务请求密度随时间变化的服务请求密度预测函数组;S2、神经网络推理服务器为神经网络运行有向无环图中每个操作选取不同性能的算子;S3、神经网络推理服务器上的神经网络运行调度程序根据神经网络运行下一个时间的预测服务请求密度,在符合服务要求的延迟条件下为每个操作选择合适性能的算子,最终达到神经网络运行满足延迟要求的同时功耗最低。有益效果是能在满足服务延迟要求的情况下,降低服务器功耗。
技术关键词
神经网络推理
推理方法
密度
动态规划算法
服务器
生成框架
低功耗
高性能
时间段
查找表
程序
数学
效应
场景