一种大模型键值缓存量化超参数选择方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种大模型键值缓存量化超参数选择方法及系统
申请号:CN202411541171
申请日期:2024-10-31
公开号:CN119623584A
公开日期:2025-03-14
类型:发明专利
摘要
本发明公开一种大模型键值缓存量化超参数选择方法及系统,属于大模型技术领域。所述方法包括:获取大模型的内存瓶颈或大模型的延迟瓶颈;在内存瓶颈或延迟瓶颈下,计算各键值缓存量化超参数组所能共同达到的最大batch_size;在该最大batch_size下使用一键值缓存量化超参数组进行大模型推理,获取该键值缓存量化超参数组对应的性能与精度的点;基于所有性能与精度的点,生成该大模型所对应的帕累托曲线;根据大模型的应用场景在帕累托曲线上选择键值缓存量化超参数组。本发明可以更轻易地使大模型达到更高的吞吐量。
技术关键词
超参数 键值 瓶颈 计算机程序指令 内存 精度 曲线 电商推荐系统 遍历算法 客户服务系统 智能客服系统 场景 演化算法 可读存储介质 互动系统 语音助手 电子设备 遗传算法 摘要 处理器
系统为您推荐了相关专利信息
机械零件 识别方法 CNN网络结构 超参数 典型
梅尔频率倒谱系数 声纹检测方法 频谱特征 支持向量机模型 融合特征
深度学习数据 数据分类 预取方法 周期 采样器
高性能发动机 分类神经网络 故障分类方法 组合故障 残差网络
行人重识别模型 无监督 学习方法 内存 样本