摘要
本申请公开了一种基于AIGC的分布式算力调度方法及其系统,涉及算力调度领域,首先实时获取GPU指标流、请求指标流,并对其进行时间序列对齐和特征工程,同时对业务意图文本进行语义特征提取,将上述处理后的特征融合为向量化系统状态输入至生成式AI调度代理来预测未来的模型需求,输出模型需求预测JSON。随后,规划器模块依据此预测和当前缓存状态,生成优化的缓存行动计划,指导调度执行器预先加载或智能置换模型。最终,请求路由器在接收到新请求时,能够查询更新后的缓存状态,直接将请求分发至已加载目标模型的GPU节点,从而显著降低冷启动延迟,提升算力资源利用效率和用户体验。