摘要
本发明提供了一种面向大语言模型的多芯粒存算一体计算装置,具有这样的特征,包括一个IO芯粒和多个PIM芯粒,其中,IO芯粒包括:嵌入模块用于生成嵌入向量并添加位置编码;IO侧数据通信模块对待计算向量进行裁切并分配至各个PIM芯粒,并接收各个PIM芯粒发送的局部计算反馈向量;同步模块,用于将各个局部计算反馈向量进行同步以及执行残差相加和层归一化计算;token存储器,PIM芯粒包括:PIM侧数据通信模块;全局存储器;多个PIM‑bank模块存储有大语言模型的网络权重,用于根据局部计算向量执行向量‑矩阵乘法生成对应的局部计算反馈向量;softmax模块。总之,本方法能够提高大语言模型的推理速度。