摘要
本发明公开了一种用于高性能计算集群平台散热的控制方法,首先通过建立高性能计算集群的三维温度分布模型,实时采集各节点的温度、功耗等数据,并利用预测模型得出各节点的偏差数据,并动态评估每个节点的散热风险等级,将整个集群划分为不同风险区域;基于风险等级智能分配计算任务,优先将高负载任务调度到低温区域;随后针对高风险区域启动分级降温措施,同时持续监测降温效果,将结果反馈至预警系统和硬件维护模块,形成“预测‑调控‑反馈”的闭环控制。显著提升了高性能计算集群平台的散热效率,在保障计算性能的同时降低过热故障风险,并通过动态优化延长关键硬件寿命,实现散热资源与计算任务的智能协同。