基于准确率缩放的高吞吐大模型推理方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于准确率缩放的高吞吐大模型推理方法
申请号:CN202510842862
申请日期:2025-06-23
公开号:CN120849092A
公开日期:2025-10-28
类型:发明专利
摘要
本发明公开了一种基于准确率缩放的高吞吐大模型推理方法,属于计算机科学人工智能领域。本方法包括:根据历史用户请求量数据,通过EWMA预测算法预测下一时段的用户请求量;将预测的请求量输入基于完全背包问题的策略生成算法,利用资源分配机制对加速卡进行分配,将多任务问题转化为单任务子问题;将单任务子问题建模为完全背包问题;逐个解决所有完全背包问题后将调度策略结果输出回大模型推理系统;根据模型调度策略,采用分批次渐进调整的方式,通过按比例轮换调整集群资源的方式实现模型更换的平滑过渡。本发明通过准确率缩放技术对大模型推理系统中的推理模型进行自适应的调整,做到零成本提升大模型推理系统的吞吐量,并降低SLO冲突率。
技术关键词
推理方法 推理系统 加速卡 资源分配机制 计算机科学人工智能 动态规划算法 背包 策略 多任务 缩放技术 处理器 集群 生成算法 存储器 可读存储介质 程序 数据