摘要
本发明公开了一种用于推测性解码大语言模型的早退方法及计算系统,包括:从大语言模型中选取若干个解码层,在被选中的解码层之后设置预测器;在每次前向过程中,采用草案模型生成语义单元树,大语言模型的输入包括语义单元树中非叶子结点;判断某个被选中的解码层是否早退的过程中:获取所述预测器的输入,当所述预测器根据其输入判断可以早退时;从语义单元树的根节点开始向下搜索满足早退条件的早退路径;若找到满足早退条件的早退路径,则早退并将该早退路径上的各语义单元作为输出。本发明的技术方案将推测解码技术与早退技术相结合,可在精度无损的情况下获得良好的加速效果。