DataOps 标准体系能力框架及实践!
来源:谈数据
DataOps作为一种企业提升数据分析质量和效率的方法论随之兴起。基于DataOps,企业数据中台可以实现更高效的运转,优化数据质量、加快生产周期,实现更好的数据运营、管理、应用。那么,运用DataOps如何能够最大化帮助数据团队运营数据,与业务高效协同?DataOps适合什么样的企业和团队?对于DataOps未来的演进方向是什么?
自2014年大数据首次写入政府工作报告起,我国大数据产业飞速发展,需求旺盛、供给强劲。在国家大数据相关政策的护航下,我国的大数据产业已进入深化阶段。随着发展的不断深入,企业数智化转型逐渐到达了瓶颈,各类矛盾浮出水面。
一是效率与管理之间的矛盾。数据项目寻求快速交付,那么管理就难以贯彻落实。在执行上往往就出现了管理和实施两张皮的现象,许多基础工作遭到了忽视,从而产生了诸多的质量问题;
二是业务与技术之间的矛盾。以前我们技术水平落后,面对的是巧妇难为无米之炊的问题。现在技术发展迅猛,但在业务和技术的衔接上出现了问题,难以有的放矢。
三是需求与供给之间的矛盾。现在的技术发展迅猛,面对企业提出的需求,供给侧能够给出各式各样的解决方案。需求方精力都用在识别和对比,缺乏对需求的深入思考,远离了问题的本质。
在数智化转型的大背景下,企业逐步意识到数据的重要程度空前。各行各业加速建设企业内部信息系统,加快数据平台构建。但在朝数智化转型迈进的过程中,总是存在着一些问题,阻挡着企业完成数智化蜕变。
从企业角度来看,在数据项目的开发、维护、管理的过程中,普遍会遇到一些典型的问题,例如数据项目的人工依赖度高、团队协作配合困难、需求响应时间低于预期、开发流程不够顺畅、管理要求难以贯彻等问题。
已有研究数据报道:99%的企业数字化转型以失败告终,84%的数字化转型项目未能达预期。
在数智化转型这一阶段,企业的业务正处于发展的关键时期,组织内的数据意识已经逐渐成熟,数据相关的需求在这一阶段激增。但是这一阶段,技术引擎的动力略显不足,数据项目的成本高、数据准备的时间长、数据需求的响应不及时。种种问题阻碍住了企业完成数智化蜕变。也是与此同时,DataOps以破局者的身份出现在大家的视野当中,为企业的数据引擎换挡。
DataOps的概念最早在2014年由国外学者提出,随后业界逐步对其内涵进行补充。在2018年DataOps正式被纳入Gartner的数据管理技术成熟度曲线当中,由此进入了国际的视野当中。2022年中国信通院正式牵头启动了DataOps的标准建设工作,以此为基础推动我国大数据产业的多元化发展,助力企业完成数智化蜕变。
从发展上看,自2018年被Gartner纳入到数据管理技术成熟度曲线以来,DataOps热度逐年上升,在21年处在一个从萌芽期到爆发期的关键过渡阶段,预示着未来2-5年内DataOps将得到广泛的实践应用。
从定义上看,Gartner、IBM、Wikipedia争相对DataOps提出了自己的定义。普遍认同DataOps具有敏捷、协作、自动化等特点。并且也提到了人员、流程、技术三者融合协作的重要性。
从实践上看,欧美国家的一些公司在DataOps的探索和发展上要早于中国。现阶段,我国有更广阔的发展空间和挖掘潜力,在制度保障、人才培养、技术储备发展上都有着长期优势。
从功能上看,DataOps的5大功能,包括:1)部署,包括基础架构和应用程序;2)运维,系统和应用程序的可扩展性、可用性、监控、恢复和可靠性;3)治理,数据的安全性、质量和完整性,包括审计和访问控制;4)可用,"可选,可用,可开发”;5)生产,调度和监控~转为~生产应用。
从技术上看,要构建DataOps所需的通用平台,一般需要以下技术:云架构,容器,实时和流处理,多分析引擎,集成的应用程序和数据管理,多租户和安全性,DevOps工具。
在国外。有如Twitter、Google等公司使用面向未来的数据架构,有如IBM公司也在多年前就开始研发了诸如Knowledge catalog、DataStage、Cloud Pak for Data等符合DataOps理念的解决方案,也有像StreamSets公司这样以DataOps思想来引领开发的工具产品。
在国内。也有很多的企业先驱者,通过敏锐的嗅觉和强大的管理执行力去探索DataOps的实践。如中国工商银行、农业银行、平安银行等多家银行机构,联通数科、广东移动、江苏移动、浙江移动等通信企业,阿里、腾讯、浩鲸、数造科技等科技公司,都在积极探索并尝试用DataOps的理念来推动我国数据文化的建设和发展。
DataOps标准的建设意义在于在于三定:
即确定DataOps概念意义、明确DataOps实施流程、把握企业发展阶段和方向。
再有就是通过标准引领的方式,引导企业快速接纳DataOps文化,尽快完成数智化转型,释放数据要素价值。
DataOps的标准体系涵盖了7大模块,分别是研发管理、交付管理、数据运维三项核心过程,价值运营、系统工具、组织管理、安全风险四项保障措施。
标准细分为25大能力、70余项能力要求和200余个动作环节。
目前,标准整体框架达成共识,并完成第一个模块“研发管理”的主体内容和要求。
该标准对DataOps的定义和能力特征达成了共识。
定义:数据研发运营一体化(DataOps)是一种面向数据全生命周期,以价值最大化为目标的最佳实践。聚焦于协同从数据需求输入到交付物输出的全链路过程,明确研发运营目的,细化实施步骤,在系统工具、组织模式、安全风险管理的支撑下,实现数据研发运营的一体化、敏捷化、标准化、自动化、智能化、价值显性化理念
在级别上划分上由低到高分为入门级、进阶级、优秀级、卓越级、引领级5个级别大项。
每个级别大项中又分为3个级别小项。从管理能力、技术能力、动作关联情况以及其他重点四大维度为企业把脉。便于企业更精准掌握现状。
在7大模块中,第一个模块研发管理,已经就主体部分达成基本共识,DataOps研发管理模块包含了4项能力,12个能力项、42个动作环节、210条等级要求和600余项条款要求。
企业可以通过以评促建的方式,掌握当前发展现状,明确未来发展方向。
Q: 对DataOps的理解认识,特别是DataOps解决的核心命题是什么?
A: 先说一个小体会吧,咱们行业搞数据仓库或数据平台工程化的,包括我们的算法工程师、数据科学家等,大家都喜欢吐槽,说自己是搬砖的、填坑的、挖煤的等等,这里面其实说明了很多问题。
似乎有很多没啥技术含量、相对模式化的工作正在折磨着大家,大家的工作幸福指数好像并不高,那DataOps,能搞定这个问题吗?答案是肯定的,DataOps核心要解决的问题,就是要围绕相对复杂的数据处理流水线,基于数据驱动的方法,帮助数据组织不断改进数据活动实施层面的协作效能。
1) 借鉴DevOps持续集成与交付方法论,建立数据治理基础框架,实现数据采集、加工、运维、服务过程一站式、体系化、规范化、自助化的流水线管理模式,消除数据生命周期管理、数据质量管理、数据安全管理等方面的隐患。
2) 基于大数据集群健康评分机制,实现数据平台降本增效,从数据计算、存储、调度等各个方面洞察平台效能和数据资源冗余使用画像,实现数据平台、模型和应用的快速部署与开发,使用AI辅助数据治理手段,为上层数据分析和智能化应用提供稳定高效算力和算法支持。
3) 实现数据驱动业务,建立数据资产运营体系,通过技术数据双中台底座,让数据资产能力开放运营过程更加安全、敏捷、服务化和智能化。
具体来说,DataOps可以在我们数据开发、运维、治理、运营、安全这五大领域发挥出非常大的实用价值:
免责声明:
本公众号所有分享的软件和资料来自网络收集和整理,所有文字和图片版权归属于原作者所有,且仅代表作者个人观点,与数据工匠俱乐部无关,文章仅供读者学习交流使用,并请自行核实相关内容,如文章内容涉及侵权,请联系后台管理员删除
免责声明:
本公众号所有分享的软件和资料来自网络收集和整理,所有文字和图片版权归属于原作者所有,且仅代表作者个人观点,与数据工匠俱乐部无关,文章仅供读者学习交流使用,并请自行核实相关内容,如文章内容涉及侵权,请联系后台管理员删除
(欢迎大家加入数据工匠知识星球获取更多资讯。)
扫描二维码关注我们
我们的使命:发展数据治理行业、普及数据治理知识、改变企业数据管理现状、提高企业数据质量、推动企业走进大数据时代。
我们的愿景:打造数据治理专家、数据治理平台、数据治理生态圈。
我们的价值观:凝聚行业力量、打造数据治理全链条平台、改变数据治理生态圈。
了解更多精彩内容
长按,识别二维码,关注我们吧!
数据工匠俱乐部
微信号:zgsjgjjlb
专注数据治理,推动大数据发展。