大语言模型的加速推理方法和计算设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
大语言模型的加速推理方法和计算设备
申请号:CN202411899191
申请日期:2024-12-20
公开号:CN119783729A
公开日期:2025-04-08
类型:发明专利
摘要
本申请涉及数据处理技术,特别涉及大语言模型的加速推理方法、实施该方法的计算设备、非瞬时计算机可读存储介质和计算机程序产品。按照本申请的一个方面,提供一种大语言模型的加速推理方法,其中,所述大语言模型包含多个以级联方式连接的子层,所述子层为多头注意力层或前馈神经网络层,所述方法包括:A、利用动态稀疏优化器,为每个子层确定相应的稀疏度;B、利用稀疏化的子层来处理推理请求,其中,稀疏化的方式为:对于每个子层,利用与该子层相关联的动态稀疏预测器,基于该子层的稀疏度和与输入该子层的前一子层的上下文来确定需要激活的注意力头或神经元并且激活所确定的注意力头或神经元。
技术关键词
大语言模型 推理方法 注意力 级联方式 优化器 神经网络模型 计算机程序产品 动态规划算法 分治算法 可读存储介质 数据处理技术 指令 贪心算法 处理器通信 校准 存储器