一种降低深度学习模型响应时延的方法、装置及存储介质

申请号：CN202510249305

申请日期：2025-03-04

公开号：CN120123093B

公开日期：2025-08-26

类型：发明专利

摘要

本发明涉及一种降低深度学习模型响应时延的方法、装置及存储介质，应用于人工智能技术领域，包括：通过滑动窗口采样获取历史负载，基于历史负载使用动态联合预测机制获取初始负载预测数据，通过对应的负载实际数据序列获取误差补偿值，通过对初始负载预测数据进行误差补偿，得到最终负载预测数据；基于最终负载预测数据序列确定未来一段时间所需的实例总数；通过调整当前正在运行的实例数量以匹配未来一段时间所需的实例总数，从而降低大规模深度学习模型推理工作的响应时延；本申请通过精确的工作负载预测和资源调度，能够有效减少模型推理的响应时延，提高服务水平目标的达成率，并降低服务成本。

技术关键词

长短期记忆网络深度学习模型 LSTM模型序列误差补偿值多项式滑动窗口采样数据时延人工智能技术模块主控器时间段机制动态资源