摘要
本发明公开了基于动态资源分配的AI模型高效训练方法及系统,包括获取AI模型所需训练资源数据。本发明实时监测CPU、内存和存储的数值,可以及时发现系统性能的波动或异常,减少因性能下降而导致的服务中断或质量下降,通过预先设定的性能计算公式和故障匹配度计算公式,可以将实时性能与历史故障前的性能数据进行相似度计算,从而精确预测系统故障,有助于提前采取措施,避免或减少故障对系统的影响,基于故障率的大小,按照预先设定的资源调度模型进行动态资源的分配,从而实现了自动化和智能化的性能管理和故障预测能力减少了人工干预的需求,降低了运维成本,同时,通过优化资源分配,还可以提高资源利用率,降低成本。