随着企业上云战略的深入普及,越来越多的企业开始关注云成本优化。随着企业对IT资源的投入不断增加,企业迫切需要解决成本和效率,以及如何将云成本优化落到实处的问题。FinOps是将财务和业务整合到一起的变革,可以帮助企业更好了解云成本和IT收益。

4月25日,第3期「UGeek大咖说·FinOps专场」邀请了国内知名云厂商解决方案架构师薛海涛做客直播间,给大家带来了《我们离FinOps还有多远》的主题分享,重点从云厂商的视角探讨如何看待FInOps,如何入手推行FinOps,以及如何帮助企业真正实现云成本优化。

下面就跟着鹿小U一起来回顾一下本期大咖到底说了啥吧!

直播回顾

随着企业云战略的不断的普及,企业上云的步伐越来越快,上云也越来越彻底。FinOps的本质是降本增效,伴随着企业上云的步伐,降本增效的目标就变成了云成本优化。

那在云厂商眼里,FinOps扮演了什么样的角色?或者说云厂商如何去帮助客户省钱?如何帮助客户达成FinOps的目标?站在云厂商的视角,通过过往经历很多客户实践案例,也许能给到大家一些启发。

01谁的FinOps?

首先,我们来看一下,这个FinOps到底是谁的FinOps?

在过去几年,自从FinOps这个理念推出之后,很多客户呢也在跟我们聊,他说现在就是大家都在讲FinOps,第二就是随着前两年疫情的影响,经济的全面下滑,企业降本增效的目标变得非常重要。说一个很实在的问题,每当企业在谈论降本增效的时候,实际上这个I T,总是会成为一个重灾区。企业不会去砍产品制造或者产品研发的成本,却能砍IT成本。

而FinOps实际上更多的它是一种协作。在以前,我们可能都听说过DevOps能打通开发运维,还有业务,它是一种跨团队的合作。而FinOps把这种跨团队的协作的范围放得更大。最明显的就是除了技术团队、业务团队,还要求财务和采购人员也一定要参与进来。

所以在前几年早些时候,FinOps出来的时候,我们看到很多的理念,不管是协作,或者说跨团队的文化,我们可能会感觉就这个东西它很虚,那到底要怎么协作,到底是一种怎么样的跨团队?FinOps几乎需要整个公司内部都要动作起来,大家齐心协力,构建一致的目标,它绝对不是技术加一个业务的问题,它是整个公司乃至一个管理或者说协作机制的问题。所以,采购人员和财务人员都要加入FinOps里面来。

那整个公司的开发、业务、财务、采购都被调动起来了,那整个企业内部要协调这么多的部门,这时显然需要企业的决策者。不一定是CEO,至少得是VP级别的决策者要参与进来。那该参与进来的角色都进来之后,FinOps的整个推行过程才可能是可行的。

过去今年,我们经历过有财务或者运维发起的,也有研发发起的,也有采购发起的,但是单方面发起的推行起来真的非常的困难。甚至说,在这种情况下,很难成功。

当然,FinOps这个领域,也带来了一些新的饿职业机会,比方说出现了这个FinOps的从业者。FinOps的整个方法论或者说整个实践,上面说到的企业当中的部门和人员要一起参与,否则这个真的不容易成功。

02我们是否真的在使用云?

》》云上创建资源和服务为什么会有“订单”?

大家如果说用过这个Aws或者gcp,如果也在用国内云的时候,你会发现有一个最大的区别是什么?就是我们国内的这个云资源,比方说我要开一台虚拟机,我要申请一个存储,我要建一个虚拟网络之前,你要先创建一张“订单”?而Aws或者gcp实际上每页“订单”这个概念的。

这些年,我经常的去问一些业界的大佬,云资源里边为什么要有“订单”这个东西?这个“订单”到底起的作用是什么?那这个里边,我们现在讲降本增效,可定会跟计费方式,跟价格密切相关,同时也会跟资源的用量和利用率相关。但是这个时候冒出来一个“订单”,它的含义是什么?实际上有的时候看起来这个话题好像跟FinOps没有关系,我可以非常确切的说,我们在实践FinOps的时候,我们会帮助客户去做一些用量或者费用的分析,会发现“订单”这个东西非常令人迷惑,或者说添乱。国内的云厂商的这种计费模式,或者说服务的剂量,实际上跟国外的云厂商是不一样的。

》》像采购传统IT设备与数据中心一样采购云资源

早些年,作为解决方案架构师会遇到在招投标的时候,客户的招标会让云厂商没发确定是要云资源。为什么这么说?因为从客户的招标书上,感觉客户实际上是在买数据中心,它会告诉你某一种型号的虚拟机,要几个,储存要多少,网络宽带要多少。而且早些年,云服刚刚兴起,刚刚被大家广泛采用的时候,出现了一种比较奇怪的购买现象,就是预付费制,即做一个资源预测,提前预支费用。

上面说到的两种计费方式,实际上会带来一个问题,我们知道FinOps是做成本优化,不管是费率优化,还是做用量优化,显然不是基于这种预付费,也不是基于一种订单机制。那这就意味着,如果照搬海外的一些最佳实践,有可能在国内是走不通的。

》》企业“上云”就是为了省钱

另外,云计算经过十多年的发展,刚开始,云厂商会编故事去讲给客户听,像用水用电一样按需去使用云资源,关键是上云之后便宜,不用一次性化几百万买一组服务器,租一个数据中心,安装一个高速网络链路,降本增效。云计算开始起源的地方,或者说真正云计算理念开始的时候,云计算的各种优势、弹性等等各种扩展,从来没有提到省钱两个字。

实际上现在有不少的企业认为把所有的业务上云就是省钱,或者说我部分业务上云是省钱,但是这个真的不是绝对的。

03云厂商愿意帮企业省钱吗?

作为云厂商来说,我该不该被你优化呢?或者说我是否愿意跟你一起来做优化?业界的一位大佬曾写到过,云计算成为了云算计。实际上随着云计算的普及,大家对云计算认知的不断加深,可以说深度用云的用户和云厂商质检是一种商业博弈。至少我个人认为,这种博弈可能不是正向的,可能是一种负向的。具体有以下四个典型现象:

  • 第一是杀低价。有的客户找到我们说,公司正在用某朵云,你们公司一起进来谈谈价格。那一朵云的时候可以不降价,我有两朵云、三朵云进来之后,大家就相互之间杀价,那杀价对于I t行业来说,它真的是一剂毒药。有一个笑话,比喻这种杀价就是什么逼死对手,饿死自己,坑死甲方,就是这种恶意竞争的结果。实际上现在在这个云行业里面,这种现象还是非常普遍的。

  • 第二是薅羊毛。有一些厂商为了实现自己的降本增效的目标,会想很多办法和技术手段,去薅这个云厂商的羊毛。比方说,我耗你的这个什么会员带宽、上行流量等等各种方式,不能说这个客户不对,客户实际上是对的,他只是说就像我们这种避税一样,我在合理的规避一些成本。但是这个东西说实话,长久来说,无论是对于甲方还是对于乙方,它是非常不利的。

  • 第三是冲业绩。云厂商不是一定不让你薅我羊毛,不愿意跟你去拼这个低价,跟你去打价格战。实际上云厂商也有小算盘,即我要充业绩,我要为了我的财报。

  • 第四是抢地盘,我要去攻城略地,我要去为了市场占有率。

那在以上四种现象的驱动下,客户和这个云厂商之间就是一种持久的博弈。

那在这种情况下,特别是一些大体量的客户和大体量的云供应商之间,这种博弈会一直的持久。那在这样的一种情况下,能够实现真正的降本增效,或者说我们能够实现一个科学理性的降本增效,我个人的观点来说应该是挺难的。

04难以计算的上云价值

实际上,企业上云的整个价值是不好衡量的。为什么?因为好多大型的头部的云厂商,它在带给你云服务的同时,也会带给你一些除了云之外的附加值。

比方,你用了我的云服务,我可以给你共享一些数据,或者做一些流量的交换。另外,可能还存在一种情况,我们这两家公司,在某一个领域,我们要进行一个战略合作,那我们都战略合作了,那这时候云资源,你是不是也得用我的。实际上你这个企业用云。不是说仅仅是为了降本增效,你是为了战略合作,或者说为了一些这种附加值的时候。那这时候你再做这种降本增效,再实施这个FinOps是否有意义?这是值得我们深思一下。

05科学理性的降本增效

不是说所有的东西,都可以被优化。这就引出下一个话题,科学理性的降本增效。

我们要做到降本增效,实际上它无非是两个途径:

  • 第一是减量,减少浪费。国外有调查报告显示,现在至少有35%的云资源是被浪费掉的。如果我们减少浪费这一项,那我们就可以实现35%的降本增长。

  • 第二是减价,计费模式。

都说要科学理性的降本增效,那到底从哪里入手开始做的,我觉得这是一个非常好的切入点,先从减量减价这两个维度去试一下。

06怎么“爬”出第一步

FinOps的方法论里面所定义的,就是爬走跑,那我们怎么爬出第一步?

  1. 第一就是全体动员,让该参与的这种角色或者组织或者团队加入进来。

  2. 第二就是说做一个精确的IT资源全景地图。通过CMDB的方式构建一个企业全局的资源图谱,便于各个团队之间的沟通,或者说在谈某个项目或某一个环境的降本增效时,至少大家的信息是对齐的。

  3. 第三就是合理的标签,国内的云计算厂商,都不太重视标签,可能有的产品甚至都没有标签,或者是标签不统一。涉及到一个很重要的概念,就是说一个成本的分摊,那成本怎么分摊?当然就是说我们通过在这个全资源全景图上可以通过这个系统的层次架构,,或者技术架构,业务架构,然后来分还有很多的资源。比方说一些共享的平台,有一套标签的体系是非常重要的。所以,打标签一定要执行下去,把它当成日常重要的工作来做。

  4. 第四就是有效的IT资源利用率监控,很多时候我们做IT资源的可观测性,大家比较关注系统可用性监控,或者是性能监控,不太重视利用率的监控。如果说你连利用率监控都监控不准的话,那这时候你怎么去判断哪些资源是浪费的呢?

另外,实际上面向FinOps的利用率监控和传统的运维监控不太一样,传统的可能大家比较关注平均利用率,而FinOps更加关注是你的峰值。如果说你不照着这个峰值去算容量的话,你算一个平均数,那大概率就是降本增效之后,你的系统就崩了,运行不了了。

07新技术在“添乱”

随着技术的不断演进,现在社区上有好多产品,比如kubernetes、微服务、云原生,这些技术出现之后,虽然说提高了我们的生产率,让我们的架构更加优化。但是对于成本来说,它实际上是在添乱。特别是在云原生、微服务这些概念出来之后,那就传统的一个应用,可能就是说我要部署多个实例,那这个中间你怎么去做分摊?对于一些共享的资源,我怎么去打标签?这实际上是一个很大的挑战。所以,从一定的角度上说,这些新技术的应用是在添乱。

08被忽视的“省钱之道”

第一个就是说你用了太多的云厂商专属的服务,当你哪一天想迁走的时候,你发现你迁不走了,这就是绑定的成本,而绑定的成本是特别高的。我们建议,如果说您在用多云架构的时候,那么请你关注你用的这几朵云中的最大公约数,既保证你能跨云,又能保证你不会被某一个厂商锁定。

第二个就是一味的去用多云架构。比方说我可能我用五朵云,六朵云甚至十朵云会不会比一朵两朵云更好,这也不一定你用的云越多,你的管理成本越高。

第三个就是混合云的成本优势,实际上不是所有的业务都适合上云,有的业务上了云之后可能更贵。

第四个就是有一些边边角角的服务,的确是可以帮你省一大笔钱。比方说你企业一个数据中心上云之后,你原有数据中心的机器怎么办?你扔掉吗?这是一笔很大的成本。现在有一些云厂商。他就能做到说你企业上云之后,你把你原有数据中心里边的机器托管到我的里边去,我在你的机器上去跑这个云服务,然后你再来用。如果说你有一个相当规模的数据中心,里边有数百台机器,那实际上你可以算,这种模式可以帮你省多少钱。当然这个服务呢,好多头部的大厂是不愿意做,但是有一些二线的厂商,或者说一些新兴的云服务企业,服务意识比较强的云供应商,他是愿意帮客户做。

以上,就是薛老师分享的重点内容,通过薛老师的分享让我们了解到面对云计算产业生态其实是属于怎样的一个情况,涉及哪些角色和分工,以及云厂商如何看待FinOps,如何科学理性的降本增效。

09Q&A

Q1:能不能分享一些落地实践,结合企业的实际情况去讲讲相应的工具和管理流程?

薛海涛:像ERP,或者说其他的一些企业项目一样,就是说我需要一个软件,我需要一个工具,才能实现我的整个的最佳实践,或者说才能让我这个事情做起来。那实际上我个人的理解来说,说实话,就是现在业界没有这种工具。或者我这么说,就是你没有这些工具,你也可以去实施落地,FinOps工具只是说给了你一个更加便捷的辅助,我们没有必要非常重视这个工具。第二,就是说如何开始,实际上我特别喜欢FinOps,就是它这个理念里面定义的这个爬走跑,上面我也说到,我们先爬出第一步是什么,简单的说,我们先从梳理我们的I T资源,梳理我们的云资源,从减少浪费开始。如果我们在梳理的过程中可能会发现,我们所有的人可能都讲不清楚我们企业到底有多少资源,我们现在用了多少云,那这时候,你相应的再回过头去找找,在建CMDB的时候,或者说你在做这种利用率监控的时候,你有没有做到位,或者说有没有一些什么样的缺失?

Q2:制造业上云如何利用?

薛海涛:我们接触过一些制造业客户,它一定不是全公有云。那这时候,首先企业自己先规划好,我们要把哪些业务上云,然后上云的过程中一定不要非常激进的,就是把所有的业务全弄到公有云上,这肯定不行,可能你会面临一些合规的问题。我们有一个最佳实践方法跟大家分享一下,就是你一定要把你这个弹性的业务,或者说你要to c,就是对最终客户服务的这种应用可以上云,但是对于一些有合规要求的,或者说你常量的业务,比方说这制造业里边的HPC,或者说大模型,存储集群,训练集群的这些业务,可以放在你的私有云里边,实际上它的这个性价比是最高的。

Q3:运营指标有哪些?如何给服务定价呢?

薛海涛:这个运营指标,因为我在前些年我们做这个AO的时候讲过,有一个指标的分类,比方说生死线指标,关键指标,普通指标,实际上这个运营指标来说,就是对于FinOps来说,业界还没有标准的一个指标体系,我到底应该用哪些指标,不外乎就这几类:第一,对于IT资源来说,你的一个利用率是怎么样的?第二,就是你费率的变化是怎么样?变化是指什么,比方说我们每天计算一个花费,然后这一周就是你的费率的花费是在上升的还是在下降的,或者说它是有规律的在变化的,这些指标是我们的比较重要的一些指标。另外还有一个管理指标,那管理指标实际上就比较简单了:第一,我省了多少钱,但是这个也不是绝对,有的时候你业务在急速的增长,然后你还在省钱,这个显然它不是一个那么合理的说法;第二,IT成本的上升跟你的这个业务的升幅相匹配了,那如果说出现费用上升了,我的IT业务反而下降了,这个肯定也是不对。综合来说就是这几大类指标了。

Q4:运维的服务器存储网络资源,如何识别资源,使用不合理的情况并进行缩容呢?

薛海涛:在初期,就是我们在实践这个FinOps的初期就是使用不合理,更多的就是浪费。我们识别浪费,是从哪里开始呢?我不太建议,一开始上来就缩容,实际上是有风险的。先减少这个资源的数量,那从哪里减呢?先从开发测试这个方面去减,然后再慢慢的,当你积累了一定的经验之后,比方说怎么正确的去看这个利用率。另外,你还要跟业务部门,技术部门甚至跟业务架构师,应用架构师等等,一起去商讨,相当于就是有点类似于重新做这个容量评估,所以一开始上来,尽量的不要去做缩容,因为会给你正常的业务带来一些风险。

Q5:云成本优化的技术方向和策略,可以听老师来讲一讲吗?

薛海涛:实际上如果说策略的话,我觉得还是按这个官方的定义。第一是科学理性,不能去拍脑袋,我们也遇到过真的跟客户一起经历过好多这种拍脑袋的降本增效基本上到最后就是乱七八糟的收场了。第二就是这个东西它不是运动式的,就是我今天提一个目标,我三个月内我要降本增效多少,然后等这事过了之后该咋样咋样,实际上这个也是不对的,我们不可能说一步就达到某一个目标,它肯定是慢慢达到的,并且这个过程就像上面提到,随着一些新技术的出现,特别是你又出现一些大模型训练,大模型推理这种新的技术架构的出现,对你做成本分担,或者说对你做这种成本优化肯定也是一个挑战,一定就是说要跟得上,它一定是一个持续的过程。