随着分布式系统、微服务、云计算技术兴起,IT 系统发生多轮演进,复杂的运维环境对监控提出了更高的要求。2018 年,CNCF 将可观测性引入 IT 领域,取代监控。可观测性也一跃成为云原生技术领域最热门的话题之一。5 年后,可观测性技术早已从早期的运维排查问题工具,逐渐进化成业务生产过程中的生产力工具。Gartner 更是将应用可观测性列为“2023 年十大战略技术趋势”。

作为国内领先的DevOps及运维服务厂商,优维探索与实践可观测技术由来已久。

早在2018年,优维就布局了监控并完成初代建设。2020年,优维又成立了多位技术专家组成SaaS监控专项组,历时1年多研发与打磨,于2021年推出超融合持续可观测性产品-Hyperlnsight,支持提供全方位IT资源和业务的可观测性。目前,优维可观测产品已成功落地银行、证券、基金几大典型行业,真正帮助客户构建可观测性能力,全面保障业务运行质量。

优 维 全 面 可 观 测

通过对客户需求的持续洞察,优维的可观测产品再度全新升级。伴随着可观测性产品的快速迭代,优维技术团队构建了更加精细与完整的可观测能力,并推出场景更丰富的全面可观测产品及服务,覆盖架构可观测、故障可观测、变更可观测、用户可观测、应用服务可观测、资源可观测、运维状态可观测等不同场景的可观测产品矩阵,帮助企业提供更丰富、更完整的可观测能力,保障系统的可靠性与稳定性,并节约运维成本。

就观测能力而言:用户可观测是通过主动拨测里面的「业务拨测」和「服务拨测」、「行业拨测」来完成监测;变更可观测是从变更的角度看系统状态的变化,及与事件的关联关系;架构可观测是从系统架构的视角来呈现链路与服务的状态数据;故障可观测是故障发生时,能第一时间呈现故障的「故障根因」,而后能联动「应急处置」快速恢复;应用服务可观测则深入服务链路的调用情况,基于Trace来做请求级链路追踪,实现服务的横向可观测;资源可观测呈现服务关联的中间件服务、基础设施等各个服务的运行状态,实现资源的纵向可观测;基于可观测的数据体系,推出运维状态可观测,如可用性、容量、性能等。

01 架构可观测

随着系统复杂度的提升,“可观测”成为系统架构建设的重要原则。「架构可观测」致力于系统架构视角、业务视角的整体状态的可视化呈现,以及系统架构视角的立体化剖析,为系统架构的稳定性提供有力的监控数据支撑。

通过构建业务视角和系统、应用视角的运行状态视图,以可视化业务链路的形式进行故障排查,强调系统架构的立体化呈现,针对系统架构逐层开展故障剖析,帮助企业从运行态的系统架构发现架构不合理的问题。同时,通过构建业务视角与系统架构视角的连接关系,辅助运维更快定位业务反馈的故障。

02 故障可观测

「故障可观测」可做到故障的有效识别、跟进、快速定位、应急处理与分析总结,帮助企业减少故障带来的损失。

企业在故障排查和处理的过程中,优维发现普遍存在一些通病:

  • 故障排查定位时,依赖运维经验,无法形成标准高效的故障定位方法;

  • 故障处理过程没有标准化的处理方案,故障应急处理效率和质量不可控;

  • 缺乏有效的故障跟进处理机制,无责任人,导致故障往往是临时解决,且没有得到最终解决;

  • 缺乏统一的故障分析沟通的地方,沟通和分析的过程信息均散落各地,导致无法有效的分析统计,进而无法有效的治理。

 为了解决上述问题,「故障可观测」基于常见的故障场景提供智能分析,帮助企业快速完成故障定位,减少服务故障带来的企业损失。基于特定的故障场景提供常见的故障处理预案,确保服务快速恢复。还提供标准化故障处理流程和统一的故障处理作战室,确保责任到位,提高沟通效率,最终形成故障处理规范。

 

03 变更可观测

在生产环境,90%的故障来自于变更,「变更可观测」旨在帮助用户观测生产环境的系统变更行为,让业务运维可以更加准确地评估系统健康状态,同时辅助运维更高效地处理变更引起的故障。

在日常业务变更过程中,存在变更观测难和变更信息孤岛的问题。为了解决此难点,优维提供的「变更可观测」的能力以变更事件为出发点,以应用系统为中心,帮助用户主动发现变更引入的异常,防止轻微异常扩大成故障。另外,可消除信息孤岛,拉通东西向变更、南北向变更及变更时间流构成三维立体的变更观测视角,为运维提供全方位的变更洞察。

 

「变更可观测」主要覆盖以下应用场景:

  • 追踪变更历史:要掌握生产环境一切变更计划和行动,回溯多渠道、全类型的变更,包括不限于应用变更、配置变更、数据库变更等等。

  • 健康态势评估:帮助业务运维/系统运维了解变更后系统是否存在异常,多次变更之间是否存在相互影响,融合系统资源图谱、资源告警及其他事件来得到一个关于变更后系统健康态势的准确评估。

  • 辅助故障诊断:基于系统访问架构,融合指标监控、告警和事件信息,辅助业务运维进行故障诊断。

 04 用户可观测

主动监控,一般用于服务可用性的探测,相比被动监控来说,具备结果明确的优势,即返回的结果是明确的,通就是通,不通就是不通。

在建设架构可观测过程中,【服务】作为应用系统下最标准且核心的资源对象,除了常见的trace、log、metric等可用性数据进行被动监控,还可通过更贴近用户真实使用场景下的主动拨测去强调服务的可观测系统的建设,从用户真实使用体验的角度进行可用性分析。

而「用户可观测」就是通过拨测能力打造从用户侧出发的主动监控,帮助企业先于用户发现服务不可用。「用户可观测」还提供低成本的服务拨测主动监控,协作企业在服务运维时做到更高效、可控;以及提供全网用户体验分析,辅助企业做好部署方法、网络策略等调优方向。

另外,优维EasyOps一体化运维平台提供内网和公网的拨测机集群,从不同网络环境多点探测服务可用性,从而实现多点决策,精准判断服务的可用性。

 05 应用服务可观测

「应用服务可观测」提供服务全景透视能力,清晰服务访问拓扑、上下游依赖、服务部署架构等,帮助用户在日常运维场景中高效分析和识别问题。

微服务架构下,服务的调用关系非常复杂,同时缺乏服务部署的实时画像,对服务的资源使用情况不清晰。对此,「应用服务可观测」基于自动发现,立体展示服务调用关系和服务部署架构,通过服务调用拓扑,定位故障服务,分析服务部署架构,观察依赖资源的异常情况。

其次,通过对服务性能指标展开服务节点、接口、时间等多维的对比分析,辅助判断服务故障原因。提供服务故障立体分析能力,定位性能瓶颈和故障根因,解决排查问题难、性能瓶颈难发现的问题。

此外,「应用服务可观测」还可追踪每次请求的完整调用链路,为故障定位提供详尽的数据支持。且兼容开源生态,支持多语言协议,通过封装skywalking、jaeger、日志、ebpf等多种数据接入方式,使接入配置更简单。

 06 资源可观测

「资源可观测」是面向资源展开的基础监控能力,通过提供多维采集手段,可纳管一切IT资源,包含网路、硬件设备、中间件、业务应用等,并可对接zabbix、Prometheus。同时,与CMDB打通,遵循Onelnstanceld规则,融合配置数据和状态数据,让数据得到有效闭环。 

07 运维状态可观测

「运维状态可观测」是实现运维状态的一次深入可观测,【性能管理】是从性能的角度全面查看系统、服务和接口的性能情况,并快速识别出系统瓶颈;【可用性管理】,结合SRE的SLO&SLI体系,呈现所有系统的可用性目标和可用性指标情况;【容量管理】,从容量规划、容量呈现、容量运营等角度,实现对系统、应用的动静态容量管理。

 

以上,就是优维新推出的全面可观测产品矩阵,想要了解和试用的企业客户可点击【阅读原文】留下您的联系方式。

万物皆可云的时代,可观测性让云变得更易用。可观测的巨大价值正在逐步兑现,我们从监控走进可观测,但不仅仅止步于观测,分析、洞察并实现高质量的决策与业务创新,完成企业数字化转型才是观测的最终目的,优维也将不断提供可观测领域优质的产品与服务。