基于AI的智慧运维异常检测系统
概述
随着我司承接的IT运维和云托管项目增多,客户系统的复杂性导致故障预警和定位完全依赖工程师经验。传统基于固定阈值的监控工具误报率高,无法发现隐性故障,且告警风暴问题突出。一次小的故障可能因未能及时预警而演变为业务中断的重大事故,对客户满意度和公司声誉造成严重影响。为从“被动救火”转向“主动预警”,我们迫切需要引入AI技术,构建智能异常检测系统,以提升运维服务质量、降低客户流失风险。
需求详情
1.多源数据采集与融合:系统需能无缝接入Zabbix、Prometheus、ELK等常见监控工具的数据,并对指标、日志、链路追踪数据进行关联。2.智能异常检测算法:需集成或研发多种无监督/有监督算法(如孤立森林、LOF、LSTM时序预测、动态阈值算法),自动学习正常基线,检测指标异常、日志模式异常和业务流量异常。3.告警收敛与根因分析:实现智能告警压缩,将同一根因的多条告警合并;提供根因分析图谱,可视化展示故障传播路径,快速定位问题源头。4.可解释性与反馈闭环:AI模型的判定结果需具备可解释性,并允许运维人员对告警结果进行反馈(误报/漏报),用于模型的自优化。
技术参数
对核心业务指标的检测准确率>95%;误报率<5%;支持每秒万级指标数据的实时流处理;根因定位Top-3准确率>80%。
项目预期
实现运维告警数量减少70%,平均故障发现时间(MTTD)和平均修复时间(MTTR)均缩短50%以上,形成可产品化的AIOps解决方案。
征集中
金额:50万元-100万元