背景


近年发生的重大生产事件中,变更实施和容量耗尽引发的问题占比非常高,很多大型故障在发生之前都有潜在的隐患持续发生,但是受当前的监控手段所限,对于持续发生的潜在隐患无法进行有效识别。随着运维体量不断增大,精细化管理要求不断提高,对运行风控识别能力、扩展风险识别手段等方面提出了更高的要求,需要更有效地识别运行风险,延长系平均无故障时间。另一方面,随着人工智能技术手段的丰富和对智能运维场景理解的深入,综合各种智能手段去满足智能运行分析的条件也愈加成熟。


因此,建设银行建立了智能运行分析系统,对版本投产后、基础设施变更后的风险、容量瓶颈风险以及特定场景(重大日系统容量预测)的风险进行识别,提前发现保障系统的安全稳定运行。


解决方案


由于版本投产、基础设施变更导致的事件占比比较高,所以 重点对变更后的风险进行识别。结合智能运行分析手段,对性地设计版本投产后的风险识别检查组合,在版本投产完成后、版本投产后的几个小时、版本投产后开门前等多个常见故障时间点,进行智能变更风险识别,更快地发现和解决问题,控制问题和范围,提高版本投产效率。


在变更后的每一个风险识别检查点,对本次变更涉及到的应用和基础设施指标进行预处理和特征描述,提取指标的一些特征信息。数据预处理主要是对指标进行指标内异常点的剔除和指标缺失段的判断与修复。特征描述是通过特征工程提取时间序列的分布、形状、波动和周期性等特征。基于提取的特征,运用多种基于时间序列的智能风险识别手段,如指标比对检测、突变模式识别、离群机器检测和短时高频趋势预测,来对当前的运行风险进行综合诊断和发现。

 

实践成果/收益


建设银行建立的运行风险识别体系和多种智能运行分析手段, 在实践中能够帮助运维人员更快地发现和解决问题,控制问题影响范围,从被动运维转向主动运维。特别是版本投产后的变更风险识别,通过版本投产后进行的指标比对,可以及场地发现交易、基础设施资源指标的显示变化,以及由于配置问题导致的离群机器问题。针对部分网联重大版本投产后的指标和离群比对,最早可以在版本投产后的分钟级内发现隐患。针对业务系统重大节假日的容量风险进行识别,提前发现容量隐患,便于应用管理员提前准备相应扩容方案。目前容量长时预测准确率可达到90%,短时预测准确率可达到96%。

 


建设银行相关文章推荐:

建设银行打造智能运维新型数据中心
精细化IT监控能力,降低运维故障风险
动态告警定级,提升运维效率
IT智能业务分析 提升容量预测准确率达90%