模型量化推理加速方法、装置、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
模型量化推理加速方法、装置、设备及介质
申请号:CN202510525474
申请日期:2025-04-25
公开号:CN120086355B
公开日期:2025-07-22
类型:发明专利
摘要
本发明涉及人工智能技术领域,可应用于医疗健康及金融科技等业务场景中,公开了一种模型量化推理加速方法、装置、设备及介质,包括:将输入文本划分为多个处理块,对非首个处理块进行重要性评分,按评分结果分配计算精度格式,确定每个处理块的统一量化配置;将网络模块划分为配置共享组,组内共享对应处理块的量化配置;根据统一量化配置执行块级量化推断,生成模型推理结果。本发明通过基于token重要性分数统一确定每个处理块的量化配置,并在网络模块组内复用该配置,实现了块级别的精度分配与并行量化推理,在保障推理精度的同时大幅降低显存开销和配置时间开销,有效提升长文本推理任务中的执行效率与显存利用率。
技术关键词
格式 网络模块 精度 注意力 标识符 文本 数值 矩阵 加速装置 地址映射 并行处理单元 元素 张量处理器 计算机设备 索引 图形处理器 人工智能技术 医疗健康 参数
系统为您推荐了相关专利信息
材料内部缺陷检测 碳纤维蜂窝 拼接单元 频域特征 包裹相位
故障智能识别方法 神经网络模型 温度补偿系数 皮尔逊相关系数 动态
三维扫描模型 噪声滤波 误差校正 修复系统 特征提取单元
分布式故障定位方法 分布式故障定位系统 电力 仿真建模 线路
控制燃气热水器 热水器控制技术 ADRC算法 负荷 关系