本文是《优维全面可观测产品能力分解》系列文章的第六篇:『运维状态可观测』。基于可观测的数据体系,「运维状态可观测」是实现于运维状态的一次深入可观测。


在日常运维场景中,系统/应用运维人员重点关注的是系统/应用是否可用,使用是否流畅及是否够用。基于此,「运维状态可观测」提供三大观测能力,包含可用性管理、性能管理、容量管理。其中,【可用性管理】则是结合SRE的SLO&SLI体系,呈现所有系统的可用性目标和可用性指标情况;【性能管理】是从性能的角度全面查看系统、服务和接口的性能情况,并快速识别出系统瓶颈;【容量管理】是从容量规划、容量呈现、容量运营等角度,实现对系统、应用的动静态容量管理。

1

可用性管理


可用性管理是确保任何IT服务一致且成本高效地提供客户所需的一致可靠服务级别的过程。可用性管理涉及最大程度地减少服务损失,并确保在服务丢失时采取适当措施。优维提供的【可用性管理】综合了服务的拨测成功率和SLO进行对比分析,通过可视化的形式,呈现所有系统的可用性目标与可用性指标,帮助企业有效衡量服务的可用性。


在可用性管理能力开发之前,基于实践观察,优维技术团队从三个方面梳理了当前企业在可用性管理上的痛点所在:


  • 系统及应用服务缺少可用性标准。

  • 无法实时掌握系统及应用服务的稳定性,也无法知道可用性是下降还是上升。

  • 无法横向对比系统的可用性,哪个系统做的好,哪个系统做的差。


基于对企业在可用性管理上的痛点洞察,优维研发的【可用性管理】在统一的标准规范指引下,设定系统及应用服务的可用性目标及计算工时,以目标倒推系统的可用性维护。其次,可查看年、月、周、天为单位的系统/应用服务的可用性,并支持周对比、月对比,从而查看可用性是在提升还是下降,以便进一步制定可用性治理手段。并提供系统间可用性排行榜,明确红榜黑榜。

在场景应用上,满足不同IT人员对可用性管理的需求。


  • 产品负责人:可制定某个时间周期内系统的服务等级目标SLO,以便其能够定义用户在使用业务系统时所期望的服务质量水平,并提供一个标准作为开发和运维团队的参考与评估。

  • 业务运维负责人:可根据不同系统特征(A类、B类、C类),围绕SLO制定可衡量服务质量/服务可用性水平的SLI,通过SLI具体指标去描述SLO,进而衡量SLO的达成情况。

  • 应用系统运维负责人:能够和运维团队一起制定应用系统内容要统计应用服务权重与接口服务黑/白名单,以便其根据企业管理要求或业务特征,通过权重/黑白名单的配置,排除干扰数据,提升可用性计算的合理性与准确性。同时,还可查看某个时间周期内,各个应用系统的可用性分析视图,以便其制定应用系统运维后续的可用性改进措施。


2

性能管理


目前对很多行业来说,IT技术正在支撑着关键的业务应用,为此关键业务应对性能有较高要求,性能下降往往对业务造成巨大损失。面对这些问题,需要一系列工具和方法,能够对IT系统的性能进行监控与管理,并对可能出现的性能问题进行及时、准确的分析和处理。从而改善服务品质,减少操作失败和灾难发生的风险,减少维护运营的整体成本,提高系统的可用性、缩短响应时间,提高用户的满意度。


因此,性能管理的重要性不言而喻,而在实际的系统运维维护的过程中,企业在性能管理上依然面临着以下问题:


  • 缺乏统一的系统性能评估手段,导致性能认知及系统建设方法不统一。

  • 性能问题解决效率慢,无法准确定位到木桶短板。


为此,优维在系统性能的观测与管理上,通过提供系统/应用的性能管理视图,以CMDB系统/应用树来呈现性能状态。同时,构建面向系统/应用服务的应用性能评估体系(Apdex),便于IT运维人员快速识别系统性能瓶颈。从业务到技术,从全局到局部,层层分析定位,帮助运维人员有效定位性能木桶短板。


在核心能力上,优维【性能管理】提供的「性能看板」功能模块,可进行系统/多服务横向对比,查看全量系统/应用服务概览,也可拆分多个生产环境,查看单系统/单应用服务的详情看板;同时,提供系统间性能排行榜,明确红黑榜Top5。另外,【性能管理」支持基于Apdex通用标准,自定义配置阈值。


3

容量管理


容量管理的核心职责是提供一个符合企业成本与利益的、及时的策略来保证IT服务与基础设施,始终达到或者超过当前业务的需求,促使业务的健康发展与IT服务的降本增效。优维研发的【容量管理】是从容量规划、容量呈现、容量运营等角度,实现对系统、应用的动静态容量管理。


通过对企业客户的深入调研,优维从四个方面有针对性的为企业提供容量管理服务。


  1. 由于企业业务不断变化,关联系统的容量支撑不得而知。为此,优维的【容量管理】可基于业务容量的变化情况,全面预估服务及容量是否能支撑业务需要。

  2. 企业缺乏系统及应用服务容量水平的实时监控。针对这一痛点,优维【容量管理】可实时掌握系统及应用服务的性能容量和资源容量状况,并定时提醒运维负责人做出改进。

  3. 企业在面临重大活动及节假日(禁止变更),系统/资源容量难以提前评估支撑。企业可利用优维【容量管理】查看活动及节假日的业务变化情况,全面评估及预测系统/资源容量水平,制定容量应对手段,从而很好的支撑业务。

  4. 缺乏主动容量管理,不足以预留足够的时间应对周期性业务变化。对此,优维【容量管理】通过建立周期性容量规划和预测机制,全面评估容量情况,制定改进计划,并落实解决。