数据治理之元数据治理
共 9130字,需浏览 19分钟
·
2024-07-23 11:27
元数据是描述数据的数据,用于打破业务和IT之间的语言障碍,帮助业务更好地理解数据。
元数据被认为是数据治理的基石,元数据治理贯彻数据产生、加工、消费的全过程,沉淀了数据资产,搭建了技术和业务的桥梁。本文介绍什么是元数据和元数据管理,以及常用的元数据管理策略、方法和技术
01
什么是元数据
元数据是关于数据的数据,它实质上封装了高度结构化字段中有关数据资产的不同属性、历史记录、来源、版本和其他信息,主要用于跟踪、分类和分析。
元数据大致定义为提供有关其他内容的信息的数据,但不提供有关数据实质的信息,例如图片本身或文本消息的内容。它可以帮助用户理解数据的含义,对于确保遵守法规和数据治理计划至关重要。
元数据的示例:
最基本的文本文档的元数据是
作者,
文件大小,
创建日期,
修改日期。
音乐的元数据可能是
歌手,
专辑,
轨道持续时间,
比特率等。
图像的元数据可能是
分辨率,
尺寸,
焦距,
颜色配置文件等。
02
元数据的作用
元数据提供数据的来源、含义、位置、所有权和创建等信息。例如,数字图像中的元数据可能包含其大小、分辨率、创建时间和颜色深度等信息。它有助于数据的分类、组织、标记、排序和搜索。
元数据存储库是存储和管理元数据的数据库。应向数据库提供内容,以确保按预期使用并适当识别内容,例如,数字图像集合的数据库。以下是元数据的作用:
描述:对数据对象的内容、属性的描述,这是元数据的基本功能,是各组织、各部门之间达成共识的基础。
定位:有关数据资源位置方面的信息描述,如数据存储位置、URL等记录,可以帮助用户快速找到数据资源,有利于信息的发现和检索。
检索:在描述数据的过程中,将信息对象中的重要信息抽出并加以组织,建立它们之间的关系,为用户提供多层次、多途径的检索体系,帮助用户找到想要的信息。
管理:对数据对象的版本、管理和使用权限的描述,方便信息对象管理和使用。
评估:由于有元数据描述,用户在不浏览具体数据对象的情况下也能对数据对象有个直观的认识,方便用户的使用。
交互:元数据对数据结构、数据关系的描述方便了数据对象在不同部门、不同系统之间进行流通和流转,并确保流转过程中数据标准的一致性。
元数据以数字化方式描述企业的数据、流程和应用程序,为企业数字资产的内容提供了上下文,使得数据更容易理解、查找、管理和使用。准确的元数据是必不可少的,也是迅速、有效地对数据去粗取精的关键。没有元数据,数据就毫无意义,只不过是一堆数字或文字而已。因此,对于元数据的有效管理是企业数据治理的基础
03
元数据的分类
-
数据源元数据:例如:数据源的 IP、端口、数据库类型;数据获取的方式;数据存储的结构;原数据各列的定义及 key 对应的值。 -
ETL元数据:根据 ETL 目的的不同,可以分为两类:数据清洗元数据;数据处理元数据。
-
数据清洗元数据:数据清洗,主要目的是为了解决掉脏数据及规范数据格式。因此此处元数据主要为:各表各列的"正确"数据规则;默认数据类型的"正确"规则。 -
数据处理元数据:数据处理,例如常见的表输入表输出;非结构化数据结构化;特殊字段的拆分等。源数据到数仓、数据集市层的各类规则。比如内容、清理、数据刷新规则。
-
数据仓库元数据:数据仓库结构的描述,包括仓库模式、视图、维、层次结构及数据集市的位置和内容;业务系统、数据仓库和数据集市的体系结构和模式等。 -
BI 元数据:汇总用的算法、包括各类度量和维度定义算法。数据粒度、主题领域、聚集、汇总、预定义的查询与报告。
04
元数据的管理
07
欢迎大家加入数据工匠知识星球获取更多资讯
扫描二维码关注我们
我们的使命:发展数据治理行业、普及数据治理知识、改变企业数据管理现状、提高企业数据质量、推动企业走进大数据时代。
我们的愿景:打造数据治理专家、数据治理平台、数据治理生态圈。
我们的价值观:凝聚行业力量、打造数据治理全链条平台、改变数据治理生态圈。
了解更多精彩内容
长按,识别二维码,关注我们吧!
数据工匠俱乐部
微信号:zgsjgjjlb
专注数据治理,推动大数据发展。