摘要
本发明公开了一种面向扩散模型并行推理的通信压缩方法,包括如下步骤:S1、预热初始化,前N个时间步传输完整激活值,第N步时发送方与接收方存储当前激活值作为初始基准值;S2、残差压缩与传输,从第N+1步起,发送方计算当前激活值与上一步基准值的残差,压缩后传输;S3、误差反馈与重构,发送方解压残差并更新基准值,接收方解压残差并重构激活值后更新基准值;S4、迭代执行至推理完成。本发明的方法有效解决了现有扩散模型并行推理中的通信瓶颈问题,通过利用时序冗余性传输残差并结合误差反馈,在保证生成质量的同时,显著降低通信量与延迟,提升并行推理效率。