为什么云原生数据湖值得关注?
共 3774字,需浏览 8分钟
·
2022-06-20 15:53
数据湖的崛起
2010年Pentaho公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)首次提出数据湖的概念。詹姆斯·狄克逊把数据湖中的数据比作原生态的水——它是未经处理的,保留原始结构的。
数据湖中的水从源头流入湖中,各种用户都可以来湖里获取、蒸馏提纯这些水(数据)。于是,早期业界和用户多把数据湖定义为一个集中式的储存原始格式数据的系统,可存储任意规模的结构化、半结构化、非结构化及二进制的数据。
随着大数据技术的融合发展,数据湖的边界不断扩展,内涵不断变化,逐步演变成为集多源异构数据统一储存、多范式计算分析及统一管理调用的大数据综合解决方案。
这就让数据湖与数据仓库有了很大的不同。
数据仓库诞生于数据库时代,它的核心思路是把数据库众多数据进行一定格式转换后,定时地复制到另一个库里做列式存储,从而满足企业查询和数据分析的需求。
在过去,很多企业的数据以ERP、CRM数据为主,数据规模往往是TB级,企业通常在本地采用数据仓库解决方案来存储和分析数据。但数据仓库这种方式模型范式固定,底层数据无法做到多样变化。
随着互联网的发展,数据量暴增,非结构化数据越来越多,企业业务变化越来越快,数字化转型成为IT行业的热点,数据需要更深度的价值挖掘,因此需要确保数据中保留的原始信息不丢失,应对未来不断变化的需求。
传统的数据仓库无法满足大数据时代企业对于实时、交互式分析等方面的需求,而数据湖择了“前松后紧”的设计思路,初始化阶段放弃严格的模式,后置schme,从而获得更强的灵活性,同时通过统一存储和计算优化来保证数据的一致性和性能,这就让数据湖开始在大数据领域逐渐受到关注。
发展至今,数据湖已经不再局限于某个技术、某个软件产品,而是涵盖数据湖存储、数据湖计算、数据湖AI的多元化数据架构,满足企业级用户的生产管理需求。
展望云原生数据湖的未来
如果对云原生数据湖做一个概括的话,云原生数据湖是大数据计算平台借助云计算理论发展出来的新技术产品,其支持异构数据灵活存储、计算资源弹性伸缩,能够帮助企业应对当前数据结构愈发复杂、数据处理时效性要求不断变高的业务环境。
也就是说,云原生数据湖只是一种架构原理,其具体实现的方式多种多样,基于EMR可以做云原生数据湖,基于Flink也可以做云原生数据湖。
不过需要说明的是,虽然中国数据湖技术正在逐年发展与突破,公有云厂商及其他厂商纷纷在尝试,但目前在数据感知收集及归类清洗方面存在壁垒和难度,数据湖建模经验不足。总的来说,我国数据湖市场整体发展处于初期阶段,技术路线不统一,业内产品能力良莠不齐。
从应用现状来看,数据湖在国内的落地还存在许多痛点。
产品层面,数据湖的数据治理能力和全链路能力仍需要进一步加强。
就数据治理而言,数据治理要求在目录中包含数据的分类、规则,如果企业对于数据湖的掌控能力不足,会导致数据湖目录及整体架构设计不良,湖内数据未得到充分归档或维护,容易形成数据沼泽。因缺少上下文元数据关联,数据沼泽无法进行数据检索,致使用户无法有效分析和利用数据。
就全链路能力而言,现阶段国内可以提供全链路云原生数据湖服务的供应商较少,大多厂商仅提供数据湖组件的支持,因此下游需求企业只能采购多家供应商来满足自身从数据采集治理到分析可视化的需求。
应用层面,云原生数据湖的行业认知和人才培养较为薄弱。人才方面,目前大数据、AI技术栈的发展日新月异,企业缺乏专业人才。从企业内部来看,管理者对数据治理一知半解,若在没有深入梳理企业业务现状及需求的情况下盲目搭建数据湖,追求大而全的概念,可能导致数据湖的落地效果不佳。行业认知方面,尽管数据的价值属性已经获得业界的广泛共识,但是选择观望的企业仍旧占绝大多数,数据湖在认知和推广上仍面临多方面的挑战。
另外,随着企业数字化转型进入深水区,数据已经成为企业的核心生产要素,而数据湖的最大风险之一就是安全性和访问控制。大量数据在没有任何监管的情况下流入湖泊,一旦某些数据包含其他数据没有的隐私和法规要求,将可能发生数据泄露和遗失,带来不可估量的后果。
当然,任何一个行业在发展初期都会存在这样那样的问题,有不完善的地方恰恰意味着这个行业还有发展的空间。根据艾瑞咨询的分析,由于国家政策利好,比如国家接连出台《促进大数据发展行动纲要》《全国一体化大数据中心协同创新体系算力枢纽实施方案》等文件推动大数据产业走向成熟,以及互联网技术高速发展的驱动、企业数字化转型加速等因素,预计中国云原生数据湖市场未来会以39.7%的复合增长率快速发展。
所以,云原生数据湖未来的发展前景值得我们期待和关注。
(欢迎大家加入数据工匠知识星球获取更多资讯。)
扫描二维码关注我们
我们的使命:发展数据治理行业、普及数据治理知识、改变企业数据管理现状、提高企业数据质量、推动企业走进大数据时代。
我们的愿景:打造数据治理专家、数据治理平台、数据治理生态圈。
我们的价值观:凝聚行业力量、打造数据治理全链条平台、改变数据治理生态圈。
了解更多精彩内容
长按,识别二维码,关注我们吧!
数据工匠俱乐部
微信号:zgsjgjjlb
专注数据治理,推动大数据发展。