一种基于transformer模型的精度调优方法、系统、设备及存储介质
申请号:CN202411963191
申请日期:2024-12-30
公开号:CN119886346B
公开日期:2025-11-18
类型:发明专利
摘要
本发明公开一种基于transformer模型的精度调优方法、系统、设备及存储介质,通过启发式地迭代搜索混合精度策略快速恢复transformer模型的精度,获得与全精度模型精度基本对齐的FP32+FP16混合模型,同时也能够保证推理性能与原始FP16模型接近,该方法是一种基于启发式迭代搜索的混合精度配置方法,用于优化transformer模型的精度和推理性能,在精度调优的同时能够在FP16精度部署上保持与全FP16模型接近的推理性能;通过按层类型选择FP32网络层的启发式策略,以保持模型的精度;结合cos相似度指标和预设相似度阈值的模型精度与性能评估机制,保证精度调优的结果;同时,能够在不同NVIDIA芯片平台上运行,兼容性好。
技术关键词
调优方法
精度配置方法
输出模块
启发式策略
无标签样本
平台
通信接口
存储计算机程序
存储器
处理器
数据
数值
格式
指标
表达式
芯片
电子设备