数据治理:元数据及元数据管理策略、方法和技术
来源:一本书讲透数据治理
作者:石秀峰
业务定义、业务术语解释等; 业务指标名称、计算口径、衍生指标等; 业务引擎的规则、数据质量检测规则、数据挖掘算法等; 数据的安全或敏感级别等。
物理数据库表名称、列名称、字段长度、字段类型、约束信息、数据依赖关系等; 数据存储类型、位置、数据存储文件格式或数据压缩类型等; 字段级血缘关系、SQL脚本信息、ETL信息、接口程序等; 调度依赖关系、进度和数据更新频率等。
数据所有者、使用者等; 数据的访问方式、访问时间、访问限制等; 数据访问权限、组和角色等; 数据处理作业的结果、系统执行日志等; 数据备份、归档人、归档时间等。
描述:对数据对象的内容、属性的描述,这是元数据的基本功能,是各组织、各部门之间达成共识的基础。 定位:有关数据资源位置方面的信息描述,如数据存储位置、URL等记录,可以帮助用户快速找到数据资源,有利于信息的发现和检索。 检索:在描述数据的过程中,将信息对象中的重要信息抽出标引并加以组织,建立它们之间的关系,为用户提供多层次、多途径的检索体系,帮助用户找到想要的信息。 管理:对数据对象的版本、管理和使用权限的描述,方面信息对象管理和使用。 评估:由于有元数据描述,用户在不浏览具体数据对象的情况下也能对数据对象有个直观的认识,方便用户的使用。 交互:元数据对数据结构、数据关系的描述方便了数据对象在不同部门、不同系统之间进行流通和流转,并确保流转过程中数据标准的一致性。
创建并记录主题领域的实体和属性的数据定义; 识别数据对象之间的业务规则和关系; 证明数据内容的准确性、完整性和及时性; 建立和记录内容的上下文(数据血缘、数据影响的全链路跟踪分析); 为多样化的数据用户提供一系列上下文理解,包括用于合规性、内部控制和更好决策的可信数据; 为技术人员提供元数据信息,支持数据库或应用的开发。
企业有哪些数据? 什么是企业有效客户?有效客户和客户有何区别? 什么是产品的生命周期? 这个数据还叫什么名字? 数据仓库中的存储过程是谁写的?它用来干什么?现在还在用吗?
这张表是从哪个业务系统中抽取过来的? ETL过程是否对数据进行过加工处理?进行了哪些处理? 指标数据是从哪些表汇总计算出来的?
今天的在线用户数为什么是0? 为什么A报表中的本月收入值与B报表中的不同?
元数据模型需求:命名规范、结构、元素及关联关系等。 元数据接口需求:元数据资料库及其内容,适配器、所有者、系统访问、元数据血缘关系等。 元数据系统需求:元数据采集、元数据管理、元数据应用等。 数据安全需求:数据的分类分级、敏感数据分布、敏感数据管理要求等。 数据质量需求:数据质量规则、数据标准定义等。 数据管理需求:数据管理的组织、流程、制度、考核等。
按照业务主题进行组织,即通过从业务域到业务主题、实体数据、数据模型的逐层分解方式,规划元数据的分类。这是一种站在业务视角管理元数据的方式,能够形成业务人员容易理解的数据目录。 按照数据源进行组织,即通过源数据系统、数据表、数据结构形式展现企业数据目录,这种方式更便于IT人员使用元数据。
建模工具:PowerDesigner、ERwin、ER/Studio、EA等建模工具适配器。 ETL工具:PowerCenter、DataStage、Kettle等ETL工具适配器。 BI工具:Cognos、Power BI等前端工具中的二维报表元数据采集适配器。 Excel适配器:采集Excel格式文件的元数据。
接口编码方式:接口编码方式必须在接口的头信息中注明,常用的接口编码方式有UTF-8、GBK、GB2312、ISO-8859-1。 接口响应格式:元数据接口常用的报文格式,XML或JSON。 接口协议:REST/SOAP协议。 接口安全:Token身份认证。 连接方式:POST。 接口地址:http://url/service?[query]。
设计态的元数据模型,通常由ERWin、PowerDesigner等设计工具产生。 测试态的元数据模型,通常是关系型数据,如Oracle、DB2、MySQL、Teradata等;或非关系型数据库,如MongoDB、HBase、Hive等。 生产态的元数据模型,本质上与测试态元数据差异不大。
评论