模型量化推理加速方法、装置、设备及介质

申请号：CN202510525474

申请日期：2025-04-25

公开号：CN120086355B

公开日期：2025-07-22

类型：发明专利

摘要

本发明涉及人工智能技术领域，可应用于医疗健康及金融科技等业务场景中，公开了一种模型量化推理加速方法、装置、设备及介质，包括：将输入文本划分为多个处理块，对非首个处理块进行重要性评分，按评分结果分配计算精度格式，确定每个处理块的统一量化配置；将网络模块划分为配置共享组，组内共享对应处理块的量化配置；根据统一量化配置执行块级量化推断，生成模型推理结果。本发明通过基于token重要性分数统一确定每个处理块的量化配置，并在网络模块组内复用该配置，实现了块级别的精度分配与并行量化推理，在保障推理精度的同时大幅降低显存开销和配置时间开销，有效提升长文本推理任务中的执行效率与显存利用率。

技术关键词

格式网络模块精度注意力标识符文本数值矩阵加速装置地址映射并行处理单元元素张量处理器计算机设备索引图形处理器人工智能技术医疗健康参数

系统为您推荐了相关专利信息

碳纤维蜂窝材料内部缺陷检测方法

材料内部缺陷检测碳纤维蜂窝拼接单元频域特征包裹相位

一种基于动态阈值的电缆早期故障智能识别方法、装置、设备及存储介质

故障智能识别方法神经网络模型温度补偿系数皮尔逊相关系数动态

一种基于AI大模型的三维扫描模型修复方法及系统

三维扫描模型噪声滤波误差校正修复系统特征提取单元

一种分布式故障定位方法及系统

分布式故障定位方法分布式故障定位系统电力仿真建模线路

燃气热水器的控制方法、控制器以及燃气热水器

控制燃气热水器热水器控制技术 ADRC算法负荷关系