【UGeek大咖说】第三期已经落下帷幕

OPPO云监控演进过程实践分享

大厂项目实战过程经验

小编日卷夜卷  吐血整理出本期直播回顾

精准简要提炼出讲师分享内容

嘉宾介绍

本次优维很荣幸邀请到【OPPO云监控负责人  李伟老师】来给大家讲解课程,专业背景,经验丰富,实力保障,带来【OPPO云监控演进过程实践】的主题分享。


OPPO云监控

为何大厂都选择自研?

# 可观测工具:工具分散、割裂;标准不统一;复用困难;看似什么都有却无法发挥系统性价值

# 可观测平台:一站式观测;综合分析,定位问题;数据关联,潜在价值挖掘;提供智能的可执行解决方案

V1.0 从基础监控开始:

# 平台能力:告警中心、站点可用性监控、业务监控(自定义脚本)、指标存储(开源方案)

# 面向用户:少量研发、基础运维

#  核心价值:主机基础指标告警、少量业务告警触发


V2.0 核心能力建设:

# 平台能力:SLA管理平台、日志告警、管理分析&告警下钻

# 面向用户:研发、运维、业务负责人、质量管理部门

# 核心价值:服务质量管理、业务可视化大屏


云监控可视化&服务质量管理平台

(示图:云监控-业务可视化大屏)

可视化大屏包含:自定义布局、动画&音效、丰富的图标样式、业务架构拓扑


SLA是什么?在可视化大屏中如何应用

① SLA是一个商业协议,涉及利益双发,如果违反,涉及法律及经济等损失。

② 由若干SLO组成,是SLO的集合。SLO通过量化一些指标构成(SLI)。

③  有一个计算周期,如1天,1月,1年。




# 制定SLO:SLO不应过低,避免过高的SLO,参考历史数据,划定边界,内部SLO&外部SLO。

# 指标体系:业务→功能→应用→基础设施下钻,即黄金指标→拔测指标→应用指标→基础设施指标下钻。

# 指标详情:黄金指标(例如实时在线用户数)、功能指标(例如登录成功率)、应用指标(例如延时)、资源指标(例如使用率)组成AIOps舆情检测能力。

 

云监控服务质量管理平台

# SLA管理:政策推动、目标对齐、SLO制定等。

# SLA监控:数据收集、指标录入、可用性计算、 可视化、故障守护。

# SLA报告:报告输出、横向比较、短板分析、长期运营。

# SLA遵守:业务方认可,目标对齐,方向一致。

可观云监控SLA监控-可用性计算


# 指标采集值:周期性从云监控查询得到指标原始数据。如延时1ms,成功率99.8%。

# 可用性阈值:指标录入时,可指定不可用阈值。如平 均延时超过5ms,成功率低于99.9%。

# 指标可用性:通过采集值与阈值按比较操作符比较获 得。可能值:-1,0,1。

# 产品可用性:可由单个指标构成,也支持多个指标按 权重合成,以便通过多个维度全面衡量 服务可用性。

 结语

最后,李老师谈到:监控体系的建设,虽然殊途同归,但一定是遵循一套价值体系。所有技术和手段都是为业务和目标服务。平台的建设,一定是业务增长的需要,道阻且长,希望大家保持耐心。

 问答环节

听完李老师的课件分享,同学们热情高涨,反响热烈,在直播间评论区与讲师进行了很久的互动交流。

现在就让大家瞧一瞧问答实录!


Q-1:OPPO云监控体系建设的过程中,遇到了遇到的难题有哪些?

A-1:监控和存储。通过资源解决了存储的问题,基于存储提升监控能力。


Q-2:OPPO云监控用的是什么存储?怎么支撑这么大量的指标采集?

A-2:TS,指标板块可采用普罗米修斯或复用一些开源工具。


Q-3:OPPO云监控前后端、多语言、跨云部署,全链路追踪是怎么做的?

A-3:我们有自建云,主要业务较少跨云监控。现在的test是基于之前资源的协议做的。接下来会把整个test去规范化,对接开源标准,优化test存储。


Q-4:OPPO云监控的黄金指标是哪些?

A-4:一是更多的去选择成功率、延迟响应时间、pps;二是通过云拨测实现黑盒监控;三是基于自定义脚本做业务监控逻辑。


Q-5:第三方运维系统是哪个厂商的?

A-5:不是厂商,是基于云监控去构建的运维系统的能力。对于云监控来说是第三方,但很多是oppo内部资源的运维系统。


Q-6:OPPO云拨测是怎么做的?

A-6:核心点在于整个拨测点的建设,拨测点的分布和实际的质量决定了整个云拨测的准确性。


Q-7:oppo是如何处理告警抑制和抖动告警的问题?

A-7:通过时间窗口和告警次数去做的抑制,实际发告警的时候也会去做一些告警的聚合。


Q-8:假设n个服务部服务部署在n台服务器上面,当其中某两台服务器出现故障的时候,如何通过告警平台快速判断有多少个服务?分别受到什么影响?

A-8:一个中间件告警了,除了集群本身受到影响之外,还影响到哪些业务,通过这些即可告诉处理告警的人,现在这个业务、相关的应用是什么,负责人是谁。


Q-9:所有告警都有升级吗?

A-9:重要告警才需要升级。


Q-10:遇到告警风暴时oppo怎么做告警压缩和故障定位排查?

A-10:基于芯片的能力,自动地去做一些分析和影响



【UGeek大咖说】月月都精彩  期期都刺激

一线大厂  触手可及  有趣有料有深度

只讲技术  全年无产品  童叟无欺

可别忘了持续关注优维动态哦~

UGeek大咖说大厂可观测系列往期回顾:UGeek大咖说第四期【阿里专场】