金融行业数据错综复杂,各种告警策略的制定会让运维人员面对大量的告警信息疲于应对,在实际生产环境中,由于在线服务的复杂性和动态性,系统会产生成大量告警,亟需一种准确的、自适应的告警定级算法,对告警进行严重性排序, 严重的告警推荐给运维工程师,以便快速发现潜在的故障,缩短修复时间。实现这个目标的挑战有以下几点:

 

告警数量大、种类多;

数据标注难以获得;

系统具有复杂性和动态性;

数据不均衡。

 

解决方案


动态告警定级方案分为离线训练和在线排序两个模块,该方案的主要创新点是:

 

首次围绕告警动态定级问题提出了基于机器学习的智能运维解决方案;

 

利用历史事件工单和告警处置记录,自动给每条历史告警标注严重性分数,有效解决了无法对海量告警一一手工标注的问题;

 

抓住告警数据的特点,采用数据融合和特征融合的思想,从告警数据和指标数据中提取了一系列可解释的、有物理意义的特征来区分告警的严重性;

 

将告警动态定级问题建模成推荐排序的问题,根据模型给出的告警严重性排序,优先为运维工程师推荐严重告警。

 

实践成果/收益


通过历史大规模告警数据的测试,验证该方案可以准确地推荐严重告警,平均准确率和平均召回率分别超过86%和91%。


实验证明,该方案中设计的两部分特征(告警特征 和指标特征)都是必不可少的,对结果都有较大的贡献:


增加告警特征,平均准确率可以提升40%;


增加指标特 征,平均准确率可以提升10%。


同时,和基于规则的定级方式相比,该方案省去了手工制定和维护规则的时间,


并且能够更准确地识别严重告警,减了处理无效告警而浪费的时间,节省了人力成本,提高了运维效率。




建设银行相关文章推荐:

建设银行打造智能运维新型数据中心
精细化IT监控能力,降低运维故障风险
动态告警定级,提升运维效率
IT智能业务分析 提升容量预测准确率达90%