分布式系统故障判断与恢复方法、应用该方法的云操作系统以及计算平台
申请号:CN202410754127
申请日期:2024-06-12
公开号:CN118331779B
公开日期:2024-09-10
类型:发明专利
摘要
本发明公开了分布式系统故障判断与恢复方法、应用该方法的云操作系统以及计算平台,涉及故障判断的技术领域,使用Corosync获取集群内若干组节点的状态数据信息,并结合分布式一致性算法,准确判断出故障节点并做出相应标记,此方法确保了系统能够实时监控节点状态,快速识别故障节点,避免因单个节点故障导致系统整体性能下降。通过检测分布式操作系统内相关资源运行数据信息及磁盘状态数据信息,构建健康影响集合,通过这些全面的数据收集和分析,可以更加精确地评估每个故障节点的健康状态,提供更准确的恢复难易程度预测。利用深度学习技术结合训练后的健康预测模型,对健康影响集合进行特征提取和分析计算。
技术关键词
分布式操作系统
分布式系统
恢复方法
故障节点恢复
预测阈值
分布式一致性算法
磁盘
深度学习技术
集群
数据
监测模块
分布式一致性协议
资源管理器
指数
分布式存储系统
云操作系统
输入输出单元
资源分配