摘要
本申请提供了一种大模型推理任务处理系统、方法及介质,其中,事件封装模块通过预设事件封装规则将推理任务参数封装为结构化事件并将其存储至分布式消息队列,实现了任务请求与模型实例处理的异步解耦,提高了任务并发响应效率。其次,事件处理模块根据消息队列中的推理事件动态分配匹配的模型实例,基于事件负载实时调用资源,改变了静态资源池整卡独占或固定配额的分配模式,避免资源碎片化和争抢的问题。最后,资源预测模块通过分析历史资源消耗数据、事件资源需求特征、模型实例的资源消耗数据,提前预判下一阶段的资源需求并制定资源分配策略,使计算资源能够根据实际需求弹性伸缩,有效提高了计算资源的利用率。