一种降低深度学习模型响应时延的方法、装置及存储介质
申请号:CN202510249305
申请日期:2025-03-04
公开号:CN120123093B
公开日期:2025-08-26
类型:发明专利
摘要
本发明涉及一种降低深度学习模型响应时延的方法、装置及存储介质,应用于人工智能技术领域,包括:通过滑动窗口采样获取历史负载,基于历史负载使用动态联合预测机制获取初始负载预测数据,通过对应的负载实际数据序列获取误差补偿值,通过对初始负载预测数据进行误差补偿,得到最终负载预测数据;基于最终负载预测数据序列确定未来一段时间所需的实例总数;通过调整当前正在运行的实例数量以匹配未来一段时间所需的实例总数,从而降低大规模深度学习模型推理工作的响应时延;本申请通过精确的工作负载预测和资源调度,能够有效减少模型推理的响应时延,提高服务水平目标的达成率,并降低服务成本。
技术关键词
长短期记忆网络
深度学习模型
LSTM模型
序列
误差补偿值
多项式
滑动窗口采样
数据
时延
人工智能技术
模块
主控器
时间段
机制
动态
资源