摘要
本申请公开了一种文本推理方法、产品、设备及存储介质,涉及计算机技术领域,包括:判断当前待推理文本的文本长度是否超过预设长度,如果超过则通过文本生成序列长度预测模型预测当前待推理文本经过文本推理模型推理后输出的文本序列的长度,得到文本预测长度,并在文本预测长度大于或等于预设阈值时,对当前文本推理请求和文本预测长度较短的未处理文本推理请求进行组合,再将组合后请求调度至目标计算节点进行文本推理,这样一来,可以避免将多个输出长度较长的请求分配到同一个计算节点上,实现了负载均衡的对多个文本推理请求进行处理,从而有效降低了推理框架显存占用发生的概率,提高了文本推理的性能和效率。