摘要
本发明公开了一种应答信息生成方法、设备、介质及计算机程序产品,涉及人工智能技术领域,针对预训练语言模型的并行推理计算的一个批次中,根据所在设备执行预填充任务的算力利用率确定预填充任务的词元预算数量和解码任务的词元预算数量,使解码任务的词元预算数量占比与预填充任务的算力利用率成负相关,根据该根据词元预算数量将对应的待处理序列输入预训练语言模型进行并行推理计算,使得并行推理计算获得吞吐量和延迟的均衡,从而可以解决相关技术中并行推理调度中存在的设备压力与生成性能矛盾的问题,达到提升预训练语言模型的并行推理性能的技术效果,提升了人工智能问答任务的执行性能。