数据人应该关注什么-轻识

数字化转型，数据人应该关注什么

|0x00 正在发生的数字化转型

这是一个数字化的时代，不论你从事怎样的岗位、身处怎样的行业，我们都被卷入其中。“数字化转型”的口号喊了很久，但2020的年末，发生了两件事情，却让这件事情陡然加速。

一个是“被动的数字化转型”，一个是“主动的数字化转型”。

“被动的数字化转型”

成熟的双边市场，是商业能够繁荣的前提，一个能够高效的聚合消费者和生产者的场所，其商业价值能够得到规模效应的倍增。中国过去二十年的互联网化进程，催生了一个关键词：“数字化平台”，通过将线下商品不断的进行线上化，进而加速了行业的标准化进程，而交易的方式越标准化，反过来越能够催生行业的繁荣。电商行业如此、广告行业亦如此。

那么什么样的行业能够催生出“数字化平台”呢？显而易见，能够将商品或者服务进行标准化的行业，就越容易进行“数字化转型”，进而催生出一个非常巨大的时长。典型的行业，就是出行和外卖。

有一些行业因为标准化难的问题，之前并没有进入巨头们的视野，随着互联网行业整体的增长乏力，它们迫切的需要开拓新的时长，于是“社区团购”被盯上了。“社区团购”通过巨头们成熟的电商平台，将产品供应链、物流、仓储、订单分发进行了标准化，配合“团长”这个具有人情味的中间角色，能够将过去买菜这种年轻人体验极不好的事情，迅速的标准化起来，省去了砍价、走路、挑菜等繁琐的环节，将消费者和直接的生产者高效的聚合了起来，提升了生鲜等商品分发的效率，从而对传统的行业，再一次的实现了“降维打击”。

尽管国家出面批评，但这么重要的流量入口，谁又能轻易放弃。

“主动的数字化转型”。

可口可乐最近在微信推出了一个小程序，虽然过程没有什么波澜，但意义却不一样，因为这是可口可乐国内的第一家线上化平台，传统巨头们，坐不住了。如果你感兴趣，可以在微信中搜索“可口可乐+”，注意，要带一个“+”号。

与“卖可乐”的印象不同，可口可乐这次不仅没有卖饮料，反倒是与其他品牌合作，卖起了文创、家居、箱包、珠宝等各种周边文化产品。这些年来，可口可乐一直将社交化传播作为自己的重要策略，通过更多场景的渗透，来与消费者链接起来。

可口可乐这次有三个变化值得注意：

提供了IP产品的定制；
联合多个品牌方，打造IP形象；
直播成为重要的流量标签入口。

把IP化、直播这两个今年热门的标签，带到了线上，足以表明可口可乐对商业变化的敏锐程度。过去，可口可乐活在广告里；现在，可口可乐活在了“数字化平台”中。

所以，不管是“主动的”，还是“被动的”，大家都在拼命的“数字化”，玩命的“标准化”。

|0x01 数据的标准化越来越重要

回到技术本身，我们看待“数字化”这件事情，其实更多的应该聚焦在“标准化”上。数据人往往会对自己有个定位，叫：“辅助决策”，但怎样才能叫“辅助”，做几个报表算吗？还是跑几个模型能算？

决策是由管理层掌握的，考察的是人的决策力，决策力是由决策者自身的视野、资源、人脉、领导力、商业嗅觉等组成的。一线员工需要经历较长时间的打磨，才能具备决策力。因此，数据从业者，不能直接跨越阶段，需要经过描述、分析、辅助决策的逐步历练，才能成长为决策者。

因此，在“辅助决策”之前，数据人的首先目标，是要能把事情阐述清楚，把数据做好“标准化”。在去抢业务价值之前，先问问自己，这个领域的数据是否标准化了，如果还没有，我们应该怎么去做。别看这是一件很基础的事情，它却是“数字化转型”最核心的部分。

最近这些年，我们对结构化数据的处理已经有了非常成熟的手段，包括对业务数据库的同步，以及处理日志要用到的“数据埋点”。与业务数据库已经标准化好的数据不同，如何设计一套规范的“数据埋点”体系，是非常重要的。

从分类上来讲，“数据埋点”主要分为前端埋点与后端埋点。

前端埋点是在用户端，如APP、网页等嵌入数据采集代码，著名的例子有友盟的统计SDK和淘宝的SPM码。前端埋点能够对网页访问的信息进行采集，更容易收集到用户在界面上的行为，如点了哪个按钮、在某个页面上停留时间有多长，等等。前端埋点的优点是能够收集更全面的数据，内容更加丰富，但缺点是采集的数据量较大，增加了终端流量的消耗和服务器的存储负担，而且对于需求的变更无法及时的相应。

后端埋点是在服务器上记录日志，当用户访问某个在线的产品模块时，由服务器将此次访问的信息记录下来。后端埋点是针对前端埋点的缺陷而设计的，主要用于解决数据的时效性和需求变更效率等问题。

埋点不是某个人的开发工作，而是需要业务链路上下游的协同来完成，从埋点需求的评审，到埋点方案的制定，再到埋点应用的开发，最后是埋点数据的统计，PD、数据开发、BI、前端、后端、测试同学都会有参与。因此，我们在做一个产品的初期，就需要考虑好埋点的问题，如果等到产品上线之后，再进行开发，早期版本的数据就无法采集到的，而且对业务的侵入性也会更强。

掌握数据标准化能力的人才，将会在未来越来越多的“被动的数字化转型”中，寻找到自己的一席之地。

埋点具体的设计，欢迎查看木东居士的《七天数据埋点之旅》。

|0x02 非结构化数据在寻求突破

除了我们能看到的结构化数据外，还有80%的非结构化数据。它们的特点是：数据量大、格式多样、处理方法复杂、高度的不标准化。这些数据包括了各种的办公文档、图片、音频、视频、机器日志等信息。

从数据的角度看，非结构化数据有三个非常显著的特征；

首先是缺少统一的管理方式。结构化数据虽然对于数据开发、数据分析等岗位十分友好，但当我们需要深入挖掘数据的内容，比如刻画一个消费者的行为数据时，往往需要很多非结构化的数据作为辅助。而非结构化数据并没有统一的管理视角，导致零散的分布在各个地方，这时候非结构化数据就无法成为产生价值的资产。

其次是开发成本高，因为非结构化数据往往需要算法同学的接入，需要针对非结构化数据一些特征做定制的开发，而没有形成一套体系化的技术能力，因此上手的难度非常高，能参与的数据开发同学并不多。

最后是非结构化数据的价值并没有被充分挖掘。非结构化数据更多的是以新的视角，来补充结构化数据的内容，对原有的业务做增量服务。当我们没有意识到非结构化数据能做什么的时候，它的价值也就难以被挖掘出来。

通过算法来标准化数据，会对现有的建模理论和开发模式，产生一定的冲击。作为数据开发的同学，学习部分的算法，也许是未来的一种职业要求。

2016年10月，Gartner发布了分布式文件和对象存储魔力象限白皮书（《Magic Quadrant for Distributed File Systems & Object Storage》。Gartner在这个白皮书中，表达了一个观点：文件和对象存储的融合趋势，在客户看来，这是一个面向非结构化数据的存储市场.

海量的非结构化数据，意味着海量的存储，意味着复杂的管理和合规性需求，意味着大数据分析能力的进一步提升。当前无论是AWS、Azure还是阿里云，对于非结构化处理主要提供工具、算法，并没有针对数据本身提供解决方案。

因此，非结构化数据的标准化，随着细分市场争夺的愈加激烈，也将成为一个热门的方向。

|0xFF 业务能力的标准化

除了数据本身的一些变化趋势，对于领域模型的理解，也是对未来数据人才的一个要求。

回想你第一次使用UML设计系统时的场景，往往自信满满的学会了工具，可以大展身手的时候，却对着要做什么纠结许久，不知道如何把脑中的想法去落地。

其实这就是对自己所从事的领域，抽象概念的理解不够到位。很多同学往往拿我们做维度建模的数据模型，来理解领域模型，其实是把技术的一些概念带入了业务之中，会导致自己的理解产生偏差。

领域模型所关注的，并不是扩展性、功能性等技术特征明显的特点，而是考虑如何通过模型的显性化，来清晰的表达业务语义。换句话说，听得懂、看得明白是第一目标，如何实现是其次要考虑的。

技术同学往往在做一些汇报PPT的时候，脑袋很大，这就是无法对自己做的事情做一个清晰的领域模型，不清楚自己所处的位置，以及能够为业务带来的价值。

按照Robert在《整洁架构》里面的观点，领域模型是核心，数据模型是技术细节，这两个模型之所以容易被混淆，是因为两者都强调实体和关系的概念，很容易在E-R图的设计上产生混淆。

的确，一个好的数据模型应该是易于扩展的，毕竟改动数据库或者是修改业务过程，可是一个系统的大工程，都涉及到不少的工作量。但不论怎样，领域模型是面向领域对象的，要尽量具体，尽量要明确，显性化的表达业务语义是其首要任务，扩展性是其次。而数据模型是面向数据存储的，要尽量可扩展。

过去，我们用维度模型把互联网业务跑了起来，但面对业务复杂性更加多元和个性化的传统行业，尤其是制造业，能够把业务讲清楚，就已经是一件不容易的事情了。这也就是为什么近年来“领域模型”被重新提起，而“维度建模”却不再火热的原因。因为时代变了，“数字化转型”到来了，要求我们更多的去改造传统行业，而不是继续留在原有业务的一亩三分地中去做深耕。

大多数人都不会在一个岗位上一直做下去，总有换到其他行业去寻找机会的时候，而在数字化工具做的非常完善、各种云设施将开发的门槛急剧拉低的时候，对业务知识的理解和抽象能力，就是区分数据人能力的最重要评判标准。

回到本文的开头，巨头们在寻找一个又一个可以标准化的行业，以此来推动“数字化平台”的建设，拼多多存在强制转到买菜业务的情况，但细细想来，如果我们没有掌握抽象业务的方法论，在“被动转型”时无法胜任，会不会像过去软件时代的程序员一样，承担被“优化”的后果呢？

不论怎样，学会对结构化数据做标准化，探索学习非标准化数据的开发，掌握对业务能力的抽象方法，都是“数字化转型”时代里，数据人应该关注的内容。