让算法落地,数据产品的一些思考
Datawhale
共 4223字,需浏览 9分钟
· 2020-09-14
导读:一个成功的数据产品有三个核心层,包含一个中心(应用层)与两个基本点(数据层和算法层)。其中应用层最重要,就是说给谁创造价值,也可以叫业务目标。判断一个数据产品的好坏在于它有没有真正给受众创造价值,创造多大价值。
![](https://filescdn.proginn.com/5fc6fec38462f1995b0716c480a2dcad/024a4c5ce639678874dad43fbf77818b.webp)
![](https://filescdn.proginn.com/a932db550e2dfd46bc3ea4b6d9755aa5/c6f081427cf74f96d05905371d0ae4b6.webp)
应用层: 应用层是实现技术落地,为算法层提供目标与方向,为未来数据层建设提供指引。 数据层: 数据层是以业务需求为指导进行高效的、有序的底层数据建设,方便数据提取、清洗与处理,并降低数据分析的技术难度。 算法层: 算法层是为了实现业务目标,深入理解业务,提供技术支持,进行数据的深度挖掘,并弥补一部分数据建设上的缺陷,帮助找到数据层优化的方向。
![](https://filescdn.proginn.com/5fc6fec38462f1995b0716c480a2dcad/024a4c5ce639678874dad43fbf77818b.webp)
可以做几个 R 包,像中山大学王学钦老师的球(Ball)软件包,如果有人用来分析数据,并得到正确结论,就是一种价值。 耶鲁大学的张和平老师有关不孕症的结果,能够影响一部分病人的治疗方案。 密西根大学的宋学坤老师和合作者解决了活体肾移植领域供受者不匹配的问题,使得肾脏配对的成功率比 Alvin Roth 方法提高了20~30%。 可以给政府/公司出一些专题分析,商业智能和报告(像北京大学陈松溪老师有关环境和新冠的报告受到政府机关的重视),给产品进行一些基本的分析,对决策提一些有深度的想法,以提高决策的精准度。 做个 app 或电商,像滴滴、京东,和阿里等等,这些平台把供给和需求打通,以增加贸易的效率。 像学而思这样的平台,给许多没有进私立学校和重点学校的学生们一个接触顶级教资的机会。
![](https://filescdn.proginn.com/5fc6fec38462f1995b0716c480a2dcad/024a4c5ce639678874dad43fbf77818b.webp)
数据需要服务于应用才有价值。比如说,许多平台收集了大量视频的数据,存储它们花费很大,所以需要删除大量与业务无关的东西,并进行压缩以降低成本。
数据收集是有成本的,是否要收集相关数据要看能不能真正为业务创造出价值,我们一定要平衡成本和收益。如果成本远大于的收益的话,我们可能就不需要相关的数据。
数据需要能转化为达成业务目标的策略,更直白地说,就是如何把数据转化成业务抓手,以正确地影响业务。
![](https://filescdn.proginn.com/5fc6fec38462f1995b0716c480a2dcad/024a4c5ce639678874dad43fbf77818b.webp)
强化学习开始在应用中起着越来越重要的作用,主要是因为它的一个主要目的是找到达到最优的中长期奖励的策略。最近它在围棋和电子游戏中达到或超过了人类水平, 而且在精准医疗上也有很多的应用。随着大数据技术和科技的发展,因为我们收集的数据在时间上越来越精细,所以有可能设计一些动态的策略来达到业务的目标。
比如说,网约车平台汇集了大量车的时空轨迹和用户的行为轨迹,而平台策略主要影响用户的行为和供需匹配的效率。我们可以考虑一些策略来影响用户的短期行为,也可以考虑一些中长期的策略(像定价)。我们最近一直在用强化学习来做优化平台各种平台策略,具体的强化学习学习过程包含 (i) 输入是每个用户的历史轨迹,包括订单行为,呼叫记录和领劵行为等;(ii) 模型产出每个乘客/司机在不同 action 下的长期收益。
![](https://filescdn.proginn.com/5fc6fec38462f1995b0716c480a2dcad/024a4c5ce639678874dad43fbf77818b.webp)
生存型:对于业务来说,我愿意为你买单,就是因为我离不开你,没有你就没有办法活,这个最重要。 服务型:有没有你,我的服务水平有很大的差异,这就是服务型。 品质型:有了你,我们的服务显得高大上,这个是品质型。
本文作者
▬
北卡罗来纳大学教堂山分校生物统计学终身教授 北卡州立大学统计博士
“干货学习,点赞三连↓
评论