摘要
本发明涉及人工智能模型训练技术领域,具体涉及一种基于光互联的一体化算力集群调度管理系统,包括:管理平台、多个算力服务器;算力服务器之间、管理平台和算力服务器之间通过光互联网络连接;管理平台通过光互联网络采集算力服务器上的负载状况,管理平台依照负载状况经由光互联网络向算力服务器分配模型训练任务。针对现有技术中的算力集群的模型训练效率受到网络传输速率制约的问题,本方案中,引入了光互联网络连接算力服务器和管理平台,通过光互联网络提升了算力服务器之间的数据同步、管理平台下发训练数据的效率,提高了模型训练效率。