摘要
本申请涉及三维堆叠存算一体化人工智能加速系统及推理方法,包括:三维堆叠存储模块,其包括多个通过高密度垂直互连结构进行通信的垂直堆叠的DRAM层;计算单元阵列,其通过三维集成技术与三维堆叠存储模块的至少一层进行直接通信耦合,并被配置为执行大型语言模型或多模态大型语言模型的至少部分推理计算;以及预存储键值缓存管理模块,该模块被配置为:在三维堆叠存储模块的一个或多个指定物理区域内,预先存储有由预定义的系统提示词经预填充计算后生成的键值缓存;计算单元阵列被进一步配置为:在执行所述推理计算时,访问预存储的键值缓存,并将其与根据动态用户输入生成的数据相结合,从而避免对系统提示词进行重复的预填充计算。