自从DevOps兴起以来,行内一直不乏各种Ops术语,目前运维已经进入技术的深水区,业界普遍认为AIOps是运维的未来那么必然趋势的AIOps到底是何方神圣呢?


1.AIOps的概念


AIOps(Artificial Intelligence for IT Operations),智能化运维,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步升级自动化运维。

智能化运维是在自动化运维的基础上,具备基于人工智能和深度学习的算法,实现规则自动生成,自适应调整已有规则。

智能化运维也是自动化运维的下一发展阶段,理想状态是把运维工作分成三个部分:监控、管理、故障定位。

只有当工程(自动化、标准化)的水平达到一定高度后,才有望向智能化方向发展。

AIOps能帮助人甚至代替人进行更有效、更快速的决策,提升业务系统的SLA,优化用户的体验,减小故障处理的时间,带来很大价值,并最终实现真正意义上的无人值守运维。


2.AIOps的基础


日志标准化:日志包含所约定的内容、格式,能标识自己的业务线、服务层级等。

 全链路追踪:TraceID或RequestID能从发起方透传到后端,标识唯一请求。

SLA规范化:采用统一SLA约定,比如都用“响应时间”来约定性能指标、都用“慢速比”来衡量系统健康度。


3.AIOps的能力


① 整理数据:提供独立、开放的历史 / 实时数据采集、算法分析平台。

② 提供告警消噪:包括告警抑制、告警收敛,消除误报或冗余事件。

③ 跨系统追踪:提供关联性,有效进行故障根因分析。

检测指标异常:设定动态基线捕获超出静态阈值的异常,覆盖单 / 多指标。

预测未来:根据机器学习结果进行事件预测,防止潜在故障。

持续集成:直接或通过集成启动解决问题的动作。


4.AIOps的应用场景


① 发现问题:基于历史数据或进行样本标记的KPI异常检测,能第一时间发现问题,检测模型能覆盖大多数曲线类型,能较好适应业务生命周期中的变化。

② 根因分析:基于机器学习模型的故障树与知识图谱挖掘,多指标检测,精准定位故障发生的根源及其原因。

③ 预测未来:基于机器学习模型的指标预测,运用多种回归和统计方法,实现对不同级别粒度的业务数据的预测。

IT辅助决策支持:深入运营场景,实现业务运营的IT辅助决策应用,比如营收预测、舆情分析、趋势预测等场景。


5.AIOps的落地前提条件


① 基础设施平台:从自动化能力、数据一体化能力进行起步建设,而不是一开始就建设一套对运维人员而言简单易用的模型设计框架。

② 算法:运维通用算法很多,可以采用跟学术界、社区、其他有实际落地经验的算法提供方进行合作,引入算法后不断调试优化才能有一个更准确的百分比;企业也可以自建算法人才,综合考虑性价比。

③ 人员组织:关注跨技术领域的综合性运维人才,这类人才更懂运维场景、需要解决的问题点。


6.AIOps的未来发展趋势


 落地多样化:除了互联网公司以外,很多传统企业、政府单位、事业机关也都在尝试AIOps落地。

② 产业生态化:各个行业都在试图尝试落地AIOps,越来越多的学术机构也开始从事AIOps原理研究,“产、学、研、用”各方积极推进,形成一个健康生态系统,提供给AIOps方向一个很好的基础。

③ 数据多样化:数据中心的系统架构庞大复杂,必须采集、治理、融合多种运维数据源,为AIOps的众多场景服务。

场景多样化:大场景众多,具体又可分为多种类型的事件分析,用户也会逐渐自发与生态系统中的伙伴共同找到越发多样化的AIOps场景。

⑤ 场景精细化:异常检测包含单指标、多指标、多维度、日志等,需要针对精细化的具体场景进行算法适配。

算法服务化:为了避免场景多样化和精细化导致的落地工作量增加,必须把各类场景用到的AIOps算法的共性部分抽象提炼出来作为公用模块,为多个场景服务,提升效率,优化整体服务。

⑦ 技术平台化:打穿多个场景、数据源、算法,不管具体某个运维场景有什么特点,都可以通过整体平台来自由组合和编排,高效落地运维场景,避免传统方法的重复低效落地。

⑧ 算法落地加速化:有技术支撑的平台后,只需通过编排,把该新算法及其所需数据、已有工程串联在一起,就能实现快速落地。

⑨ 成熟度评估标准化:标准化需求逐渐产生,银保监会、证监会、人行、工信部等权威机关也都表示支持。

AIOps ➡  运维未来的答案,运维出现障碍自动修复,解决问题无需人工干预,把握好趋势才能分得时代红利,智能化运维乃是运维发展必然那么如何才能脱颖而出,那就是专业的技术支持。选择优维,先见未来,成为行业翘楚仅需一步,以企业所处转型阶段为出发点,制定符合自身需求的解决方案。