项目复盘|数据模型实操指南
数据能力是产品经理的基础能力之一。和原型、文档、需求调研普及能力对比起来同样重要。互联网公司都离不开数据,无论是冷启动周期的种子用户、还是增长期的留存用户,有数据基础知识同时要求产品经理区分业务数据和用户行为数据、定义数据口径、搞清楚数据来源。
由于近期在负责数据中台的搭建,我也来分享下我们在数据模型产品的建立过程。整个过程分为数据可视化面板设计、数据口径、数据来源、数据挖掘4个维度分享。
1.数据可视化面板设计(难度:简单)
目前市面上有较多以vue、react、JS的可视化数据效果。
比如jquery插件库:https://www.jq22.com/
可以帮助找到开源、可用的酷炫交互动画。这里基本只能帮助在数据可视化上展示更为“酷炫”,但实际上和数据图表仍然要去比如蚂蚁数据可视化、DBAPLUS上有通用的数据图表。
▲ 开源的jquery插件
快速实现数据可视化效果。在数据可视化里,我们常用扇形、柱状、柱状图、热力图来展现数据。
阿里的G2数据可视化引擎https://g2.antv.vision/zh
▲ 数据可视化图表
找到适合数据场景的图形即可,比如用户画像显然是扇形比例会比柱状图更有优势。用户增长趋势则用柱状图比扇形。
涉及到数据挖掘的模型,比如漏斗模型、页面路径展示,都可以用上面的开源图标完成。
2.数据口径、场景定义(难度:中等)
数据的采集可以来前端埋点、还可以后端服务计算,比如H5要依托于前端的埋点,才可以有用户行为数据。而订单的状态则需要依托于服务端判断才有。
在数据口径定以前,还有做数据依托于运营视角的归类,比如什么数据属于公共部分、什么数据属于某个产品线的、还有什么数据是属于某个用户行为、场景才会产生的。
▲ 数据模型设计表
比如上图我们建立了公共数据概览、用户生命周期2个不同归类看板。目的就是拆分不同的数据场景。
比如第三方短信平台的消息发送数量、消息发送成功、发送失败数量,是平台系统类型的数据。和用户行为无关,归属于公共类数据。
用户生命周期则将数据和用户行为结合分为回流用户、活跃用户、新用户、流失用户4类。因此只要处于用户生命周期类场景的数据模型都将放在这个面板中。
在上面文档里面的从左到右分别是数据字段\模型名称、数据定义、数据说明、数据统计场景。
数据口径定义是未来开发人员、产品部门、数据运营同学的数据词典,一旦定义不清楚,即无法完成埋点、也无法完成数据清洗工作。同时要知道数据口径定义还会随着数据中心迭代而不断维护,要求在一定的规则下继续更新。
比如业务规范词、数据名词、统计单位说明,再加上版本号、或更新人员、业务部门。
3.调研数据源头(难度:困难)
在实际生产环境中,我们可能面临因为产品处于运营早期、甚至是有的数据源头是第三方、跨部门提供的。
对方到底怎么统计、如何采集、能不能有对应数据来源,需要产品经理找到开发同学定义、厂商进行调研,比如上图的短信发送成功、状态等数据,是来自短信第三方平台提供,确保数据源是可有的,而不是产品经理自己YY,建立一张可用的数据口径表,是数据建设的核心之一。
现在数据源头对接的2种形式
第1种形式:无任何规则的杂乱数据
由于一开始并没有重视这部分数据工作,导致数据就简单以日志、或MySQL的方式存储在服务端。没有建立对应的数仓做相应数据管理,
第2种形式:数据的接入是手动接入
在跨部门、和第三方公司合作上,有部分数据属于新业务,导致经常出现对方没有时间提供接口。所以手动导入Excel表格的方式是早期数据中台建立的时候场景方式。
而产品经理主要搞清楚数据来源是谁,比如是第三方、还是公司内部其他产品。内部走OA流程、邮件审批,外部第三方则走注册、资质申请、材料填写。因为数据来源最难的是得到数据使用权限。
比如上面我们的数据统计表格里有短信供应商、前端埋点、第三方厂商集合数据,将所有来源进行汇总才能最后成为自己的数据模型。
当然以上2种方式,都最后要达成以接口的方式,实现实时统计。才能将数据中心真正的建立起来。前期人工导入、和数据规则定义都是为了后面接口的重要步骤。
好今天的分享就在这里。