数据资产管理:企业的数据资产怎么盘?
导读:今天和大家聊一聊,数据资产的梳理和盘点!
作者:石秀峰
来源:谈数据(ID:learning-bigdata)
对企业来讲,资产盘点不是一个新鲜的事。
所有企业都会定期或不定期地对公司的资产、存货进行全部或部分的清点,以确实掌握该期末的企业存货数量、价值,并因此加以改善,加强管理。通过资产盘点查明各项资产的库存和使用情况,以便合理安排生产经营活动,充分利用各项财产物资,加速资金周转,提高资产使用效率。这里的“资产”,是指企业的固定资产。
而数据作为企业一种“特殊资产”,被列入企业的资产负债表,是迟早的事情。数据资产当然也需要盘点,只有对数据资源进行统筹规划,全面梳理,“摸清家底”,才能让数据更好地服务于企业的业务应用。
01 为什么需要数据资产盘点?
“数字化”在当今社会,已成为最热门的话题之一,而数据是实现“数字化”的基础。企业推进数字化的进程中,遇到的首要问题是“无数据可用和无可用数据”。
无数据可用,并不是企业真的没有任何数据,恰恰相反的是,对于一些大型企业已经建设了几十个、甚至上百个应用系统,这些系统实际上都沉淀了大量的数据,但由于缺乏对这些数据资源的统筹规划和全面梳理,导致企业并不清楚自己有哪些数据,有多少数据,数据都在哪里,进而导致企业“无数据可用”
无可用数据,是由于数据都分散在各个应用系统中,缺乏统一的数据标准,系统彼此之间无法很好地通信,从而形成了一个个信息孤岛,并且每个系统的数据质量层次不齐、标准不一,敏感数据未进行有效处理等等。这些问题的存在,导致企业数字化过程中,无可用的数据。
数据资产盘点解决以上问题的主要手段之一,通过对企业拥有的数据进行清点将帮助企业弄清楚以下问题:
企业有哪些数据?关注数据的分类;
企业有多少数据?关注数据的存量、增量;
企业的数据存储在什么地方?关注数据的存储和取用方式;
企业的数据是由谁在管理?关注数据的归属部门和责任人;
识别哪些是重要数据,哪些是敏感数据?关注数据的分级、共享条件和范围。
02 数据资产盘点从哪里开始?
企业的数据散落在各个异构系统、甚至业务人员电脑中,数据结构、数据类型、存储形式、敏感级别、重要程度各不相同,整体看起来就像是一团乱麻的线,想要理出头绪其实并不容易。
剪不断,理还乱
不是离愁
是企业那些不一致、不准确、不完整,无序、分散、纠缠不清的数据
……
企业数据资产的盘点从定义一个合理盘点计划开始!
1. 明确数据盘点范围
数据盘点的范围一般从三个角度定义:
组织范围,即盘点要覆盖哪些组织和部门,例如:集团本部、集团+分子公司等。
业务范围,即要盘点哪些业务的数据,例如:采购业务、营销业务、人力资源业务等;
系统范围,即要盘点哪些应用系统的数据,例如:SCM系统、CRM系统、HR系统等。
2. 明确数据盘点人员
数据盘点谁负责牵头,谁负责配合、谁负责审核?需要投入多少人力资源,需要投入多长时间,是兼职参与还是全职参与?这些问题需要在盘点计划中进行明确定义,并与相关人员达成共识。
3. 明确数据盘点内容
数据盘点要根据业务的需要,确定哪些内容需要理清楚,诸如:
数据的分类:采购、营销、生产、财务、人事等
数据的结构:结构化数据、半结构化数据、非结构化数据等
数据的类型:基础数据、交易数据、统计数据、时序数据等
数据的存储:SQL数据库、文件存储、流式数据等;
数据的敏感等级:核心、重要、一般等
数据的共享类型:不共享、有条件共享、无条件共享等
数据的开放类型:不予开放、有条件开放、无条件开放等
数据的存量:多少条目、多大容量等;
4. 明确盘点的计划表
数据盘点应该有计划的一步步推进,例如什么时间开始、什么时间结束、什么时间发布都需要定义清楚。
在明确了以上四个问题之后,你的数据盘点之旅就可以开启了!
03 数据资产应该由谁来盘点?
大家知道,企业固定资产的盘点一般是由财务部门牵头,固定资产的管理部门和使用部门共同配合进行清点核对,以保证账实相符。
而数据作为一种特殊的资产,确权难、虚拟性、可复制是其主要特征,这也为数据资产盘点造成了一定的困难。数据资产盘点,到底是应该谁负责牵头,谁负责配合、谁负责审核,这个问题理不清楚,数据盘点工作的将很难推进!
数据资产盘点的原则是“谁生产,谁负责”,“谁使用,谁负责”,“谁管理,谁负责”,一般来说,业务部门既是数据的生产部门,也是数据的主要使用部门,而IT部门往往负责数据的管理。
理想情况下,数据的盘点应该由业务部门牵头,因为他们更熟悉自己的数据,很多教材和课本上都是这么说的。但在实际项目中,我们看到数据盘点还是以IT部门牵头的居多。
“业务离数据更近,更熟悉数据,这没错”,但是业务部门往往只熟悉自己负责的那一部分,缺乏全局思维和整体视角。所以,由业务部门牵头的数据资产盘点,容易造成“盲人摸象”,过程中会遇到诸多问题而使盘点变得低效。
因此笔者认为,企业数据资产的盘点需要找到一个具有全局思维的人来进行统筹,规划出数据盘点的相关原则、框架和蓝图,定义出数据盘点的内容,制定出数据盘点的模板,再由生产或使用数据的业务部门执行梳理,完成数据盘点工作。这个统筹的人可以是IT部门、数据管理部门,或是外部聘请的数据专家。
04 数据资产盘点的基本方法
数据资产盘点有两个基本方法:自上而下梳理和自下而上盘点可以帮助我们梳理出企业的数据资产清单或称数据资产目录。这两个方法是配合使用,构成了数据资产盘点的两个方面。
1. 自上而下梳理
自上而下梳理是一种以业务视角进行数据梳理的方式,通过对企业的相关制度文件、职能体系、业务流程、业务单据等进行全面分析,逐层分解,梳理数据资产的三级目录、业务属性和相关管理属性。
三级目录,即数据资产的分类,是按照业务视角对企业数据资产的梳理和分解,例如:数据域-数据主题-数据子主题-数据对象,(注:三级目录不限于三级,但一般建议控制在五级之内为宜)。
业务属性,即用来描述数据资产的业务元数据。如上图所示,常见业务属性包括:所属数据域、数据主题等分类属性,数据对象、业务定义、业务规则、敏感等级等。
管理属性,即用来描述数据资产的管理、维护、使用相关元数据。如上图所示,常见管理属性包括:管理部门、管理人员、联系方式、更新频率、最后更新时间、数据共享条件等。(注:业务视角下,数据资产的管理属性可能无法全部梳理出来,这就需要在技术盘点环节对其进行补充完善)
2. 自下而上盘点
数据资产盘点的另一个方面是以技术的视角,从IT系统--数据库表--数据结构出发,进行自下而上归纳,逐步明确数据资产相关的系统信息项(技术属性)。
技术属性,即用来描述数据资产的技术元数据。如上图所示,常见技术属性包括:来源系统、数据库表、字段类型、字段格式、取值范围、存储方式、血缘关系等。
最后,对业务视角的梳理出的目录中数据项与技术视角的盘点出的系统信息项进行关联,建立起两者的映射关系,这样一个完整的数据资源目录就成型了。通过数据资产目录可以从多个视角(业务或IT)进行数据的查找,并确保目录中的每个数据项都可以在真实的IT系统中找到。
05 数据资产盘点的基本流程
企业数据资产梳理和盘点一般可分为以下五个步骤,如下图:
1. 制定盘点计划
该阶段需要确定盘点范围、盘点目标、盘点内容、盘点人员、时间计划(具体上文已说明,此处不再赘述);
2. 制定盘点模板
该阶段需要根据盘点内容,制定数据梳理模板并定义数据资产标准项。内部对盘点工作进行培训和宣贯,相关人员对盘点范围、目标、内容等达成共识,理解并学会数据资产梳理模板的使用。
▲图片来源:知乎,作者檀兴
3. 数据资产盘点
一方面,从业务视角对数据资源进行梳理和规划,包括:制度文件的解读、流程表单梳理、关键数据的识别等,并定义数据的分类体系和数据资产的业务属性。另一方面,从技术视角对系统数据进行盘点,包括:系统数据探查、数据结构、数据存量、数据增量、存储方式等,并定义数据资产的技术属性。
4. 盘点成果评审
针对梳理出来的数据资产清单、核心数据模型、数据分布图图等成果物进行评审和意见征集,并根据反馈意见完成相关成果物问题修订。
5. 发布与应用
数据资产盘点成果的发布,并不是将数据资产清单以邮件或其他方式发布出去就行了,而是需要搭建起来专业的数据资产管理平台,通过平台落地数据资产目录,将数据资产以“服务”的形式进行发布,实现数据资产在企业内的共享,以及面向外部的数据开放。
06 数据目录 VS 数据资产目录
数据资产盘点的一个重要成果物是“数据资产目录”。数据目录和数据资产目录到底有什么不同?
从本质上来讲,不论是数据目录还是数据资产目录,都有“字典”的含义,都是为了定位数据,解释数据,以及帮助用户快速找到数据的。这是两个目录的共同点。
在项目实践中,数据目录更多是指通过元数据管理工具,对相关数据源(业务系统数据库、数据仓库、数据湖等)的元数据进行采集,而形成的数据目录。由于直接采集过来的基本都是数据库表结构、数据流、ETL脚本、数据库操作日志等技术元数据,所以数据目录要有一定的技术基础才能看懂,而且它的定位就是给技术人员看的,例如:ETL工程师、BI工程师、开发工程师。
而数据资产目录的不同在于:
第一,数据资产目录是站在业务的视角,以利益相关者的数据需求为目标进行数据资源体系规划的,例如:数据业务属性的定义,数据域的划分,分类分级体系的建设,数据共享和开放的设计等都是以业务使用为基础的,这样就形成了一个业务人员能够看得懂的数据类目结构。因此,在整个目录体系梳理和编目的过程中,业务人员参与是关键,是目录体系使用和推广的保证。
第二,数据资产目录需要对每个编目的数据资源进行确权认责,明确数据资产的管理权、使用权,并确定它的共享条件和范围。
第三,数据资产目录管理的是数据资产,即:那些使用频率比较高,能够为业务带来价值的数据。如何实现呢?这就需要数据资产目录具备“打标签/标注”的功能,通过识别数据的特征、含义、数据质量、使用频率,使用场景、使用对象等对数据对象进行打标签。标注的方式可以是人工打标签,更先进的是通过机器学习、模型训练的方式自动给数据进行分类和打标签。
最后,数据资产目录当然也需要用到元数据工具,采集和管理技术元数据。并通过数据关系映射,将数据资产目录映射到物理库表和字段上,以实现从多个视角都能够找到想要数据。
延伸阅读👇
延伸阅读《一本书讲透数据治理》