数据人应该关注什么
共 4068字,需浏览 9分钟
·
2021-01-19 16:13
数字化转型,数据人应该关注什么
|0x00 正在发生的数字化转型
这是一个数字化的时代,不论你从事怎样的岗位、身处怎样的行业,我们都被卷入其中。“数字化转型”的口号喊了很久,但2020的年末,发生了两件事情,却让这件事情陡然加速。
一个是“被动的数字化转型”,一个是“主动的数字化转型”。
“被动的数字化转型”
成熟的双边市场,是商业能够繁荣的前提,一个能够高效的聚合消费者和生产者的场所,其商业价值能够得到规模效应的倍增。中国过去二十年的互联网化进程,催生了一个关键词:“数字化平台”,通过将线下商品不断的进行线上化,进而加速了行业的标准化进程,而交易的方式越标准化,反过来越能够催生行业的繁荣。电商行业如此、广告行业亦如此。
那么什么样的行业能够催生出“数字化平台”呢?显而易见,能够将商品或者服务进行标准化的行业,就越容易进行“数字化转型”,进而催生出一个非常巨大的时长。典型的行业,就是出行和外卖。
有一些行业因为标准化难的问题,之前并没有进入巨头们的视野,随着互联网行业整体的增长乏力,它们迫切的需要开拓新的时长,于是“社区团购”被盯上了。“社区团购”通过巨头们成熟的电商平台,将产品供应链、物流、仓储、订单分发进行了标准化,配合“团长”这个具有人情味的中间角色,能够将过去买菜这种年轻人体验极不好的事情,迅速的标准化起来,省去了砍价、走路、挑菜等繁琐的环节,将消费者和直接的生产者高效的聚合了起来,提升了生鲜等商品分发的效率,从而对传统的行业,再一次的实现了“降维打击”。
尽管国家出面批评,但这么重要的流量入口,谁又能轻易放弃。
“主动的数字化转型”。
可口可乐最近在微信推出了一个小程序,虽然过程没有什么波澜,但意义却不一样,因为这是可口可乐国内的第一家线上化平台,传统巨头们,坐不住了。如果你感兴趣,可以在微信中搜索“可口可乐+”,注意,要带一个“+”号。
与“卖可乐”的印象不同,可口可乐这次不仅没有卖饮料,反倒是与其他品牌合作,卖起了文创、家居、箱包、珠宝等各种周边文化产品。这些年来,可口可乐一直将社交化传播作为自己的重要策略,通过更多场景的渗透,来与消费者链接起来。
可口可乐这次有三个变化值得注意:
提供了IP产品的定制; 联合多个品牌方,打造IP形象; 直播成为重要的流量标签入口。
把IP化、直播这两个今年热门的标签,带到了线上,足以表明可口可乐对商业变化的敏锐程度。过去,可口可乐活在广告里;现在,可口可乐活在了“数字化平台”中。
所以,不管是“主动的”,还是“被动的”,大家都在拼命的“数字化”,玩命的“标准化”。
|0x01 数据的标准化越来越重要
回到技术本身,我们看待“数字化”这件事情,其实更多的应该聚焦在“标准化”上。数据人往往会对自己有个定位,叫:“辅助决策”,但怎样才能叫“辅助”,做几个报表算吗?还是跑几个模型能算?
决策是由管理层掌握的,考察的是人的决策力,决策力是由决策者自身的视野、资源、人脉、领导力、商业嗅觉等组成的。一线员工需要经历较长时间的打磨,才能具备决策力。因此,数据从业者,不能直接跨越阶段,需要经过描述、分析、辅助决策的逐步历练,才能成长为决策者。
因此,在“辅助决策”之前,数据人的首先目标,是要能把事情阐述清楚,把数据做好“标准化”。在去抢业务价值之前,先问问自己,这个领域的数据是否标准化了,如果还没有,我们应该怎么去做。别看这是一件很基础的事情,它却是“数字化转型”最核心的部分。
最近这些年,我们对结构化数据的处理已经有了非常成熟的手段,包括对业务数据库的同步,以及处理日志要用到的“数据埋点”。与业务数据库已经标准化好的数据不同,如何设计一套规范的“数据埋点”体系,是非常重要的。
从分类上来讲,“数据埋点”主要分为前端埋点与后端埋点。
前端埋点是在用户端,如APP、网页等嵌入数据采集代码,著名的例子有友盟的统计SDK和淘宝的SPM码。前端埋点能够对网页访问的信息进行采集,更容易收集到用户在界面上的行为,如点了哪个按钮、在某个页面上停留时间有多长,等等。前端埋点的优点是能够收集更全面的数据,内容更加丰富,但缺点是采集的数据量较大,增加了终端流量的消耗和服务器的存储负担,而且对于需求的变更无法及时的相应。
后端埋点是在服务器上记录日志,当用户访问某个在线的产品模块时,由服务器将此次访问的信息记录下来。后端埋点是针对前端埋点的缺陷而设计的,主要用于解决数据的时效性和需求变更效率等问题。
埋点不是某个人的开发工作,而是需要业务链路上下游的协同来完成,从埋点需求的评审,到埋点方案的制定,再到埋点应用的开发,最后是埋点数据的统计,PD、数据开发、BI、前端、后端、测试同学都会有参与。因此,我们在做一个产品的初期,就需要考虑好埋点的问题,如果等到产品上线之后,再进行开发,早期版本的数据就无法采集到的,而且对业务的侵入性也会更强。
掌握数据标准化能力的人才,将会在未来越来越多的“被动的数字化转型”中,寻找到自己的一席之地。
埋点具体的设计,欢迎查看木东居士的《七天数据埋点之旅》。
|0x02 非结构化数据在寻求突破
除了我们能看到的结构化数据外,还有80%的非结构化数据。它们的特点是:数据量大、格式多样、处理方法复杂、高度的不标准化。这些数据包括了各种的办公文档、图片、音频、视频、机器日志等信息。
从数据的角度看,非结构化数据有三个非常显著的特征;
首先是缺少统一的管理方式。结构化数据虽然对于数据开发、数据分析等岗位十分友好,但当我们需要深入挖掘数据的内容,比如刻画一个消费者的行为数据时,往往需要很多非结构化的数据作为辅助。而非结构化数据并没有统一的管理视角,导致零散的分布在各个地方,这时候非结构化数据就无法成为产生价值的资产。
其次是开发成本高,因为非结构化数据往往需要算法同学的接入,需要针对非结构化数据一些特征做定制的开发,而没有形成一套体系化的技术能力,因此上手的难度非常高,能参与的数据开发同学并不多。
最后是非结构化数据的价值并没有被充分挖掘。非结构化数据更多的是以新的视角,来补充结构化数据的内容,对原有的业务做增量服务。当我们没有意识到非结构化数据能做什么的时候,它的价值也就难以被挖掘出来。
通过算法来标准化数据,会对现有的建模理论和开发模式,产生一定的冲击。作为数据开发的同学,学习部分的算法,也许是未来的一种职业要求。
2016年10月,Gartner发布了分布式文件和对象存储魔力象限白皮书(《Magic Quadrant for Distributed File Systems & Object Storage》。Gartner在这个白皮书中,表达了一个观点:文件和对象存储的融合趋势,在客户看来,这是一个面向非结构化数据的存储市场.
海量的非结构化数据,意味着海量的存储,意味着复杂的管理和合规性需求,意味着大数据分析能力的进一步提升。当前无论是AWS、Azure还是阿里云,对于非结构化处理主要提供工具、算法,并没有针对数据本身提供解决方案。
因此,非结构化数据的标准化,随着细分市场争夺的愈加激烈,也将成为一个热门的方向。
|0xFF 业务能力的标准化
除了数据本身的一些变化趋势,对于领域模型的理解,也是对未来数据人才的一个要求。
回想你第一次使用UML设计系统时的场景,往往自信满满的学会了工具,可以大展身手的时候,却对着要做什么纠结许久,不知道如何把脑中的想法去落地。
其实这就是对自己所从事的领域,抽象概念的理解不够到位。很多同学往往拿我们做维度建模的数据模型,来理解领域模型,其实是把技术的一些概念带入了业务之中,会导致自己的理解产生偏差。
领域模型所关注的,并不是扩展性、功能性等技术特征明显的特点,而是考虑如何通过模型的显性化,来清晰的表达业务语义。换句话说,听得懂、看得明白是第一目标,如何实现是其次要考虑的。
技术同学往往在做一些汇报PPT的时候,脑袋很大,这就是无法对自己做的事情做一个清晰的领域模型,不清楚自己所处的位置,以及能够为业务带来的价值。
按照Robert在《整洁架构》里面的观点,领域模型是核心,数据模型是技术细节,这两个模型之所以容易被混淆,是因为两者都强调实体和关系的概念,很容易在E-R图的设计上产生混淆。
的确,一个好的数据模型应该是易于扩展的,毕竟改动数据库或者是修改业务过程,可是一个系统的大工程,都涉及到不少的工作量。但不论怎样,领域模型是面向领域对象的,要尽量具体,尽量要明确,显性化的表达业务语义是其首要任务,扩展性是其次。而数据模型是面向数据存储的,要尽量可扩展。
过去,我们用维度模型把互联网业务跑了起来,但面对业务复杂性更加多元和个性化的传统行业,尤其是制造业,能够把业务讲清楚,就已经是一件不容易的事情了。这也就是为什么近年来“领域模型”被重新提起,而“维度建模”却不再火热的原因。因为时代变了,“数字化转型”到来了,要求我们更多的去改造传统行业,而不是继续留在原有业务的一亩三分地中去做深耕。
大多数人都不会在一个岗位上一直做下去,总有换到其他行业去寻找机会的时候,而在数字化工具做的非常完善、各种云设施将开发的门槛急剧拉低的时候,对业务知识的理解和抽象能力,就是区分数据人能力的最重要评判标准。
回到本文的开头,巨头们在寻找一个又一个可以标准化的行业,以此来推动“数字化平台”的建设,拼多多存在强制转到买菜业务的情况,但细细想来,如果我们没有掌握抽象业务的方法论,在“被动转型”时无法胜任,会不会像过去软件时代的程序员一样,承担被“优化”的后果呢?
不论怎样,学会对结构化数据做标准化,探索学习非标准化数据的开发,掌握对业务能力的抽象方法,都是“数字化转型”时代里,数据人应该关注的内容。