摘要
本发明公开了一种自动化巡检自愈系统,属于智能运维技术领域,包括若干代理模块,分别安装在不同的目标服务器上,实时采集所在目标服务器的全量监控数据,并执行接收到的最优自愈脚本;控制台,用于配置巡检任务参数,并建立每个巡检指标与其自愈脚本间的关联关系;调度器,用于根据巡检任务参数定期触发巡检任务,并标记每个异常巡检指标及其监控对象,并将标记结果发送给决策器;决策器,用于根据预设的最优选择算法确定每个异常巡检指标对应的最优自愈脚本,并将各个最优自愈脚本分发送给对应的代理模块执行。本申请能够快速、大规模的巡检服务器存在的问题,并在发现系统故障时自动恢复故障,保障了客户服务器的健康稳定。