提速79%!上交大新方法优化企业级AI流程调度 | IEEE ICDCS’ 25

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
提速79%!上交大新方法优化企业级AI流程调度 | IEEE ICDCS’ 25
7376点击    2025-07-25 09:51

复合LLM应用 (compound LLM applications) 是一种结合大语言模型(LLM)与外部工具、API、或其他LLM的高效多阶段工作流应用。


⽬前,服务这些应⽤任务需要⾯对运⾏时⻓不确定、⼯作流结构不确定等问题,这对现有集群任务调度算法提出了极大挑战,并严重影响任务运⾏效率。


为了解决上述问题,上海交通大学朱怡飞教授团队联合江行智能提出调度框架LLMSched,通过引入三类新节点来扩展传统任务表征方法实现复合LLM应用任务的有效表征,借助贝叶斯网络识别可降低不确定性的关键节点,并以信息熵衡量节点的熵减程度。


目前论文已被IEEE ICDCS’ 25接收。


实验结果显示,LLMSched结合探索-利用策略来平衡调度不确定性与当前调度收益,最终实现高效调度复合LLM应用,相较现有调度器平均任务完成时间降低14~79%。


提速79%!上交大新方法优化企业级AI流程调度 | IEEE ICDCS’ 25



LLMSched:DAG模型重构+熵减调度


团队通过对现有复合LLM应用的设计分析与实验,总结出复合LLM应用以下两点不确定性:


时长不确定性:单任务耗时波动高达300秒(图1a)。该不确定性主要来源于LLM的自回归生成特性。


结构不确定性:任务步骤数与运行结构随机波动(图1b/c)。该不确定性主要来源于LLM在复合LLM应用中发挥的决策与规划功能。



提速79%!上交大新方法优化企业级AI流程调度 | IEEE ICDCS’ 25



复合LLM应用这两种不确定性极大限制了传统调度的性能表现。如下图实例所示,传统最短任务优先(Shortest Job First)调度因误判耗时导致效率低下(任务平均完成时间6.5s),而不确定性感知的调度器通过提前执行高熵减阶段(TA-1)降低不确定性,从而达到更有效调度(任务平均完成时间5s)。


提速79%!上交大新方法优化企业级AI流程调度 | IEEE ICDCS’ 25



DAG模型重构:调度的基石


为了应对复合LLM应用中存在的结构不确定性,研究团队提出全新有向无环图(DAG)建模框架,如下图所示。该框架引入了三种节点,常规节点(Regular Stage),LLM 节点(LLM Stage)与动态虚拟节点(Dynamic Stage)。其中,常规节点对应外部工具、api等的调用,LLM节点对应LLM推理任务,动态虚拟节点对应由LLM规划生成的子DAG。


提速79%!上交大新方法优化企业级AI流程调度 | IEEE ICDCS’ 25




重构后的DAG模型能将现有的复合LLM应用表征为拥有固定拓扑结构的调度单元,为之后的调度设计建立了基础。


贝叶斯分析器+熵减衡量机制:让系统越算越“清醒”


团队在研究过程中意识到复合LLM应用的部分节点存在显著的关联性。这种关联性使得在执行完成某些前置节点后,后续节点的不确定性能够有效降低,具体表现如下:


1、规划式任务中LLM规划节点后的工作流完全由该节点决定。完成该LLM规划节点后,所规划的子工作流的未知拓扑结构可被完全揭示。


2、相当一部分的节点在运行时长上存在较高的关联性(下图所示)。在完成前置节点后,后续节点的时长不确定性进一步降低。具体表现在后续节点的运行时长的条件分布更为紧凑、可预测。


提速79%!上交大新方法优化企业级AI流程调度 | IEEE ICDCS’ 25



为此,团队为每个应用在对应数据集上收集了大量的运行时长数据,并在数据上基于重构的DAG模型训练贝叶斯网络(BN)来获取节点的运行时长分布与节点之间的关联性。当BN中的一个节点存在一条或多条出边时,该节点便与其他的节点存在关联,调度该节点便可以降低其他节点的不确定性。


考虑到实际情况中,不同的节点能够降低的不确定性程度大不相同,团队引入信息论中信息熵的概念,使用互信息衡量,如下图所示。由于信息熵与互信息均通过变量的分布进行计算,因此之前通过BN获得分布便可以直接用于计算调度每个节点的熵减,无需额外的测量。


提速79%!上交大新方法优化企业级AI流程调度 | IEEE ICDCS’ 25



提速79%!上交大新方法优化企业级AI流程调度 | IEEE ICDCS’ 25


实验结果:平均任务完成时间最低降至79%


团队选取了六种代表性的复合LLM应用,并基于此构建了4种不同应用组成的负载,如下图所示。团队在一台搭载H800 GPU的ubuntu机器上使用vLLM框架与LLaMA-7B 模型进行了实验。


实验结果表明,LLMSched相较于现有的调度器最多可降低79%的平均任务完成时间。


提速79%!上交大新方法优化企业级AI流程调度 | IEEE ICDCS’ 25



为了进一步衡量LLMSched的可拓展性与适应性,团队构建了一个简易的LLM推理模拟器,并在上面进行了多组不同任务数量的实验。如下图所示,团队展示了不同任务数量的仿真结果。


实验结果表明,LLMSched在任意一组实验设置上均取得领先的成绩,同时随着任务数量增加,LLMSched的优势变得更为突出,比如,与 Decima 相比,在包含 100、200、300和400个任务的混合工作负载中,LLMSched 分别降低了 38%、65%、73%和 75%的平均 JCT,这展示了 LLMSched 的可扩展性。



提速79%!上交大新方法优化企业级AI流程调度 | IEEE ICDCS’ 25



此外,团队在测试平台实验中,在下图中展示了每种方法的平均调度开销(总开销除以每种方法的调用次数,包括BN推理和熵计算)。团队方法的平均调度开销略高于FCFS、SJF和Fair等简单启发式算法,但远低于Decima和Carbyne这两种复杂方法。此外,LLMSched的平均开销对于所有类型的工作负载都低于3毫秒,这表明LLMSched可以在不影响平均JCT的情况下执行高效的实时调度。


提速79%!上交大新方法优化企业级AI流程调度 | IEEE ICDCS’ 25



消融研究


为了分析这两个组件的有效性,团队进行了消融研究,创建了两种额外的方法——LLMSched w/o BN 和 LLMSched w/o uncertainty。第一种方法遵循算法1中提出的相同调度方案,但使用历史任务平均持续时间进行估计。第二种方法使用贝叶斯网络更新任务持续时间的后验分布,但仅执行SRTF策略。


提速79%!上交大新方法优化企业级AI流程调度 | IEEE ICDCS’ 25



上图展示了在四种类型工作负载上进行的消融研究结果。团队将两种方法的平均JCT归一化到LLMSched的水平。


对于LLMSched w/o BN,在四种类型工作负载上,平均JCT分别比LLMSched高18%、17%、20%和 5%。这表明BN发挥了重要作用,因为它显著提高了任务持续时间估计的准确性。借助BN,可以通过利用阶段间相关性,更动态地更新和更准确地预测非计划阶段的任务持续时间。


对于LLMSched w/o uncertainty,在四种类型工作负载上,平均JCT分别比LLMSched高 21%、12%、15% 和 13%。这表明不确定性感知策略在有效引导探索过程中至关重要。当处理混合工作负载时,其重要性尤为突出,因为各阶段的不确定性减少差异显著。对于这种工作负载,LLMSched w/o BN的性能优于LLMSched w/o uncertainty。


LLMSched为LLM服务优化开辟了新方向,尤其对多模块协作的Agent系统、LLM推理集群资源调度具有重要参考价值。其不确定性量化框架可扩展至其他动态任务场景,推动智能调度理论与实际系统的深度融合。


论文链接:https://arxiv.org/abs/2504.03444


文章来自公众号“量子位”,作者“LLMSched团队

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md