5月25日,第四期UGeek大咖说如期召开,本期大咖说聚焦DataOps领域,邀请了中国信息通信研究院云计算与大数据研究所工程师尹正,极氪汽车大数据产品负责人赵松共同参与本次直播,围绕“DataOps重构数据生产力”这一话题展开了深入探讨。


下面,跟着鹿小U一起来回顾本期直播主要内容!


直播回顾


PART1:DataOps现代数据运营管理模式首先分享的是中国信通院云大所工程师,资深数据资产管理研究员尹正老师,目前主要从事DataOps数据治理,数据资产管理的理论研究,曾牵头过多项相关领域的标准及白皮书研究报告编制,负责多家行业头部企业的相关领域评估咨询工作。本次直播带来了《DataOps现代数据运营管理模式》的主题分享。


1.DataOps发展历程


实施国家大数据战略,加快建设数字中国


2017年,习近平总书记在十九届中央政治局第二次集体学习时提出要构建以数据为关键要素的数字经济。正是这个时候,国内对数据的重视程度又上升了一个新高度。2022年中央深改委第26次会议审议通过《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》,该意见给出了一些建议,提出几个比较重要的点,比如数据产权制度、流通交易制度、收益分配制度、安全治理制度,鼓励行业和从业者能够提高数据要素供给数量和质量,充分保障数据处理者使用数据和获得收益的权利,充分实现数据要素价值、促进全体人民共享数字经济发展红利。


企业:数据驱动是数字化转型的核心


对于企业来讲,要构建一个数据驱动型企业。在未来,数据驱动型企业能够在整个大的数据交易市场中,将占有一定的先发优势。


数据驱动型企业具备六大特征:

  1. 全面用数

  2. 实时分析

  3. 随时可用

  4. 柔性管控

  5. 内外贯通

  6. 闭环运营

数据驱动型企业必备的三个核心能力


  • 数据平台建设的能力:数据平台建设先行,具备相对较好基础。这个阶段,更多的是解决数据原始资源积累的问题,可以用更好的技术去承载和采集更大的数据。

  • 数据资产管理的能力:数据管理意识普及,2022年1024家完成DCMM贯标,数据资产管理能力加速提升。这个阶段,已经有了大量的数据基础,要更关注数据的质量、数据的安全,以及数据的标准等进行一系列的管控。

  • 数据应用开发的能力:数据平台建设和数据资产管理能力提升,激发了数据需求,数据开发能力与需求之间的矛盾日益突出。这个阶段主要考虑如何将高质量的数据赋能业务的发展。


以上就是数据驱动型企业需要具备的三个核心关键能力,从而把数据的价值更好的释放出来。


数字化转型陷入怪圈



早期,企业在进行数字化转型的时候,普遍存在几个问题,比如早期做了很多数据方面的投入,包括人力、物力、财力等去进行基础设施的建设,但收益效果却达不到预期目标。总体来讲在建设DataOps主要有以下几点困境:


  • 人工依赖度高:过渡依赖人工经验和人工决策。

  • 团队协作难:工具系统多,团队链路长,沟通成本高。

  • 需求响应慢:数据需求提出量暴增且需求提出的质量低。

  • 开发效能不足:数据开发运营运维流程浪费严重,数据工作流割裂。

  • 管理有缺失:效能管理缺失,DT一体化管理缺失。


以上问题的存在,导致很多头部企业希望构建敏捷的产品开发流程,构建出高效、跨组织、跨区域的协同机制,以及开发和治理融合为一体的良性机制,并建立起精益的、精细化的数据运营体系,这种诉求随着组织成长、随着数据规模的扩大越来越强烈。


现代化数据开发范式亟待形成


传统数据开发范式遇到的挑战推动数据开发应用模式创新变革,亟需新的实践方法论来推动工具、流程和人员等资源的优化重组,提升数据产品供给能力。


  • 形成敏捷数据产品开发流程:敏捷迭代,快速响应需求变化;自助服务,主动利用数据资产。

  • 打造开发治理一体化流水线:前置数据质量管控,治理过程融入开发流程,打造自动化测试流程,及时处理问题。

  • 构建高效的跨域协同机制:跨部门协作,打造协同型团队,建立良好沟通机制,塑造协同文化,借助技术赋能,善用协同工具。

  • 建立精细化的数据运营体系:全链路度量与反馈,减少人力成本,降低运营成本。


数据研发运营一体化(DataOps)


DataOps是数据开发的新范式,将敏捷、精益等理念融入数据开发过程,通过对数据相关人员、工具和流程的重新组织,打破协作壁垒,构建集开发、治理、运营于一体的自动化数据流水线,不断提高数据产品交付效率与质量,实现高质量数字化发展。


DataOps的发展


DataOps的概念最早在2014年由国外学者提出,随后业界逐步对其内涵进行补充。在2018年DataOps正式被纳入Gartner的数据管理技术成熟度曲线当中,由此进入了国际的视野当中。自2018年被Gartner纳入到数据管理技术成熟度曲线以来,DataOps热度逐年上升,在21年处在一个从萌芽期到爆发期的关键过度阶段,预示着未来2-5年内DataOps将得到广泛的实践

DataOps VS DevOps


DataOps借鉴了许多DevOps中优秀的的理念和方法,对DevOps有着深入实践的组织也更容易实现DataOps的应用。


DataOps虽然源于DevOps,但由于数据项目的场景更为复杂。在实践DataOps的过程中,也不能仅仅将DevOps用在数据开发当中。



DataOps的复杂性


数据在技术侧包括了至少产生、集成、加工、分析使用、退役等过程,管理侧至少包括了标准、质量、模型、元数据、安全等方面。如此多的环节包括了更多的组件和过程,那么定义DataOps是非常困难的。引用一张图片来作为DataOps环境的关键组件的简化图。



DataOps的收益


2.DataOps能力标准框架介绍


DataOps标准建设背景


一是确定Dataops概念意义、明确DataOps实施流程、把握企业发展阶段和方向。


二是通过标准引领的方式,引导企业快速接纳DataOps文化,尽快完成转型,释放数据要素价值

以上,就是尹正老师的分享的主要内容,结合了我国目前产业的发展,介绍了DataOps的产生背景以及它的发展情况,让我们窥探到了数据驱驱动型企业必备的三个核心能力,以及数据应用,开发,资产管理以及数据平台建设。同时也非常细致的向我们介绍了DataOps能力的标准框架以及生态,那在当前的环境下,数据研发运维一体化是不断提高数据产品交付效率与质量,实现高质量数字发展的必经之路。


PART2:极氪DataOps实践之“看见”数据的价值

第二位分享嘉宾是极客汽车大数据产品的负责人赵松老师,他是资深车企数字化专家,曾经在阿里影业,中国移动苏州研发中心,数梦工厂汽车事业部等公司担任大数据产品负责人,主导实施了上汽大众营销数据中台奇瑞营销数字化平台和PSA集团CDP等项目。在车企数据中台全域BI和CDP平台建设方面有非常丰富的实践经验。本次直播主要分享了如何看见数据的价值。


数据项目一般都有啥问题?


首先讲一下,一般数据项目,都会碰到一些什么问题?做过数据项目的应该深有体会,第一就是数据的项目链路长,核心体现的就是协同比较差,第二个整个数据需求的响应慢,第三个是数据难拉通,这个一般在车企里面是非常明显的,第四个是数据准备的时间长,第五个是数据测试没有章法,第六个是数据质量低。以上会遇到的问题,导致数据价值难体现,这是所有数据项目都面临的挑战。


数据中台业务架构


构建统一数据中台,实现全域数据入湖,成为释放大数据价值新引擎。


从上到下看整个数据中台架构,一般对于整车里面的话会有比如延产供销服务,监管生态,围绕着整车全电路的制造,为了支持这些业务,我们会做一些认知跟决策的支持。关于我们内部的B I还有我们的ai的工具,主要是解决业务已经发生了什么?为什么发生?将要发生什么和怎么去应对?基于这些应用数据产品,我们内部会形成我们不同的DataOps,还有包括我们车辆商店,质量供应链制造,研发和人力相关的一些数据平台。再往下一层的话,就是我们整个数据的采集和打通的过程,我们会围绕着DataOps一整套的方法论来怎么样去采集用户行为数据,包括内部员工相关的一些数据。


“看见”数据价值的全景图

针对数据价值难以体现的问题,我们是如何通过DataOps的方式去让数据的价值更好的去看见,主要分为四个方面来讲。


  • “看见”内容 - 上下看




上下看的内容的话,我们会从上到下拆解成不同层级,看相应的一些报表,然后做一些指标的上下的拆解,并且自上而下拆解,自下而上进行一


些补全,这样的话让我们公司从上到下都能够看到数据的价值。


  •  “看见”内容 - 左右看


左右看更多的是从流程上怎么样去开发出一个指标,包括订单到工厂到交付,还有包括整个供应链,看哪些数据在不同的环节,比如说订单多少,用户交付的数量。


  •  “看见”内容 - 前后看


前后看更多是看一些流程,我们内部会有相关的一些流程平台,去把我们的流程分为L1-L5五个等级流程。另外也会去看对应的市占率,同时会看公司的一些运行的效率,运行的成本,运行的收入。


  • “看见”方式


这里最核心的是我们整个DataOps里面,要打造对应的一些数据产品。然后达到什么样的产品,然后中间相关的能力有哪些?那看见的方式的话,我们围绕着我们企业里面,现在的业务发生了什么,然后我们有什么问题,然后做一些相关的预测,还有同时来做一些应对,这个整体的话就是围绕整个pdc的环节,首先把我们业务里面,比如说车卖的好不好,我们要发现一些问题,整一个上游的流量线索进来的少,还是说我们在转化环节出了问题,将各个环节的目标可视化的展现出来,然后同时对目标进行一些分析跟诊断,同时的话对诊断的一些问题推出一些预警,及时发现诊断的问题,然后推到相关的负责人身上,通过跟踪闭环来得到一些解决。以上就是我们整个看见方式的解读。


  • “看见”方法 - 前导


看见的方法其核心是我们怎么把这些价值通过数据去看见,然后同时这些数据我们怎么样接入进来去加工?那整体来看的话,整体数据的接入过程,会围绕DataOps的理论,通过目标进行一些拆解,再通过策略形成一些量化的指标,最终的话就会有我们的一些结果的数据。那在整一个过程当中,怎么样去量化?我们会通过DataOps不同的角度,不同的维度,从整个全周期、全场景的角度,进行一个整体的数据集成与采集。


  • “看见”保障 - 数据治理保障


第一个的话是我们数据自己的保障,还有是数据安全的保障和组织的保障。整个数据开发的过程当中,我们会通过数据治理的各个模块包括制定我们数据战略,同时制定数据治理的组织分工,然后同时在数据安全、数据应用,还有数据架构和数据质量上面,尤其是数据质量上面,会把各个指标做数据质量的量化考评,然后制定对应的标准。通过数据治理,在我们整一个指标,还有报表的开发过程当中,其实是属于这种边开发边治理的一个过程。然后边开发边治理,发现一些问题,再推出相应的治理方式跟手段。那数据安全里面更多也是结合着数据安全的一些策略,包括我们怎么样防范数据泄露。


以上,是关于四个看见相关的内容,是我们的一个实践与反思。今年,我们把这探索和跟实践结合DataOps的相关标准做一个相应的沉淀,要闯五关。



第一个是数据拉通关,第二个是数据信用观,第三个是数据价值观,第四个是数据规范关,第五个是数据组织关。


  • “五关”-数据拉通关


数据项目里面,对于互联网公司来说,数据难拉通的问题是不存在的,但是对于一般制造业还有像车企这种稍微偏传统一点的企业的话,它里面的数据拉通,会是比较难的一个事情,那里面就会分为我们跨部门怎么拉通,跨中心怎么拉通,跨公司怎么拉通?难度系数由低到高,那我们会制定不同的策略,不同的拉通方式的话,我们会分为业务驱动,然后同时还有包括业务加上不同的中心的负责人,包括跨公司就是业务会加上更高层级的总裁办去作为整体的协同,包括我们的那个方式上也会不一样,那这种同中心的我们更多采用数据库同步,如果是跨公司的话,更多是弧弧对接,就是数据库和数据之间对接,更多是以api的这种形式,我们会制定不同的对接小组,像同中心这个的话是其实是最简单的,一般只需要业务,业务方跟我们的B I的小组就可以,那跨中心的话还会加入我们中心的一些负责人,那跨公司可能就需要更高层级的协同组织来加入,比如说总裁办来协同公司和公司之间的数据的互通。


  • “五关”-数据信任关


第二关是数据信任关,整一个项目里面我们也经历了三个阶段,从数据使用就产生疑问,到边用边产生疑问,到深信不疑,中间经历了整整一年的时间。


  • “五关”-数据价值关


数据价值层面的话,其实整个数据价值的体现,在互联网公司和制造型企业或者车企里面它是不一样的,互联网公司可能天生就是原生的就是数据长在它的业务上面的,而车企的话,它会有一些不一样,比如怎么把价值链逐渐的显现,通过价值链它是怎么演化的,但我们首先做的第一步就其实是要让业务通过数据去看见你的业务的一些运行的状况,第二步的话,我们要把这些数据做成你业务的一些管理工具,通过你的数据来做成内部的经营的管理,数字化的管理,再通过管理的话又能去实时的监测,监测你业务的各个目标的达成情况,这样的话,整个价值链的演化就会成为一个个推手一样。


  • “五关”-数据规范关


那数据规范关的话,现在也是在结合整一个信通院DataOps的体系,然后从研发管理,交付管理,数据运维价值运营系统工具,组织管理安全风险。各个环节里面,两年多的时间,各个模块都已经设计一些体系和规范化机制的建立,让整个流程运转的更加顺利。


  • “五关”-数据组织关


组织关的话刚才讲到的,其实我们整一个B P化的组织,它也不是项目启动阶段,是项目启动阶段就已经有了,而更多我们是不断的去演进的,那最开始我们的组织可能只是一个单位的一个小团队的十人左右的组织。角色也比较单一,可能只有一些移动端的团队,那随着我们B I业务的不断扩张,团队的话从移动端到pc端,最终到全域。全域的话可能涉及到几十号人,那这样的话,怎么去很好的协同业务?会形成我们整个数据B P的一个机制,通过数据B P跟业务之间进行一个比较好的衔接,同时它能传递好数据价值。


PART3:Q&A

Q1:如何让公司领导有数据治理的想法?


A1:让公司领导有出于自己的想法,其实这个的话你公司里面可能会经常就出现,无论是报表还有指标或者是输出的一些数据,先不要说准不准,就是在他们可能是对不上a部门报上的数据和B部门报上的数据,同样的一个数据,它可能对不上,那这个时候的话其实自然而然的话就会去反查原因,那反查原因的话,可能更多的话就是大家口径不一致,那这个事情多了以后的话,其实就是存在整个数据治理的一个问题,怎么样去拉起你的指标的口径,包括原数据的一些定义。那这个时候就是,顺理成章的话,就会往下来会做一些数据治理的事情,你只有治理了,你的数据才会变准。


Q2:涉及合规的数据要怎么样处理呢?


A1:合规的数据这块包含数据安全,还有包括个人隐私法,这个在国内推出的已经非常多了,并且国外也有,尤其是欧洲的gdp也是非常严格。这一整块里面其实大家在做数据过程当中就会发现,你在数据里面涉及到个人信息这一块,从开发过程当中,第一个就会有一些数据安全的工具跟手段,这个在做的时候首先要熟知数据安全的工具同时,最好是能熟知一些数据安全的法规。然后对于个人信息数据这一块,如果没有特别应用场景的要求,一般是不建议去处理的。就比如说处理一些身份证号,手机号这些东西是不建议的,那更多的话其实可能都是基于用户相关的id的一些统计或者开发的这个相关的工作。所以,对于数据处理过程当中,涉及到数据安全这一块,大家可能要慎之又慎,尤其是在个人信息数据这一块。