面经 | 阿里淘系数据分析1+5面 offer报批中
超重要的简历面
面经
面试 over
简历面 2020.02.24 30min
row_number()实际用法介绍
如何优化连接
贝叶斯公式一般解决什么问题
现在新型冠状病毒,有一个病人发烧咳嗽,让你用试剂盒检测,拿到阳性或阴性的结果,怎么判断他到底有没有患病?
假设检验和置信区间的区别
中心极限定理
比较熟悉的机器学习算法有哪些?
支持向量机的原理是什么?和感知机的区别?那线性可分和不可分有什么区别呢?
系统地梳理一遍业务知识:
AARRR
广告的投放、变现过程...
熟悉两三个算法,可以从这几个角度:
算法:小哥说,一般面试也没两个人能把svm的来龙去脉讲清楚,所以重点弄明白两三个经典算法就好了(可能需要svm的smo这种深度吧
业务:系统学习和整理相关知识,思路才会更有框架性
自己简历的case得从多方面深挖
4. 你在yy具体什么部门负责什么业务?组织架构是怎样的?
5. 统计:
用小白鼠做实验,如何验证新药剂是否有作用?
如果p值比a大,就断定新药剂有作用吗?
统计显著性和检验显著性
6. 业务题:
淘宝活动,怎么设计优惠券的满、减金额,使gmv最大?怎么设计?怎么对比?最后看什么数据?
对比:不能只考虑gmv值的绝对差异,还要考虑退货订单率
对于设计出来的两三种优惠券,基于过去的数据,怎么给商家配比?通过什么维度?如何衡量好坏?
具体部门:淘系技术部 - 商业机器智能部门
不足:互联网相关实践较少,多看一些行业报告是如何分析问题的
二面 2020.04.01 35min+11min(面试官介绍工作内容)
你觉得最难的点?
分业务和技术展开讲
技术层面遇到的问题 & 怎么解决的?技术层面的提升有哪些?
sql的优化有哪些
小表在前,大表在后的优化原理
tb有一列数,保证不重复,打印出相加等于100的数,2&98 与98&2只打印出一行即可
4. 业务题:
道路交通事故,男司机出现事故占90%,女司机出现事故占10%,是否说明男司机比女司机更容易出现交通事故?
不对,基数不一样
除了人数,还需要考虑什么因素?(这才意识到是想考我控制变量法)
除了性别,其他因素都一样:统计的时间区间、驾驶车的类型(几座、牌子)、车龄、司机驾龄...
6. 代码能力,python什么程度?具体使用情况?spark的使用?数据清洗的时间格式转换?
7. 提问:
数据分析具体工作做什么?
数据赋能,大团队包括算法、数据
对外发挥价值的方式:以分析为主导,为运营、产品迭代提供帮助;算法赋能,抽象建模
如何提升?
三面 2020.04.03 15+3min
2. spark sql和普通sql有什么区别?运行的时候遇到过哪些错误?具体报错的信息是什么?
再次... 这两个spark相关的问题答得是相当辣鸡,这一刻感觉自己呼吸都是尴尬的
3. 灵魂拷问系列:
Q:对一列数据进行二值化,使得二值化后的数据均方误差最小
A:聚类算法的思想:k-means
Q:你确定你的答案吗?还有什么快速方法?
A:确定。从小到大排列,取1/4和3/4分位数
Q:如果不排序,还有什么方法?
A:是否需要精确找到这两个数?数据量很大吗?可以当成正态分布来做吗
Q:精确找到,没有分布信息
...
A:是要精确找到这个数吗?
Q:是,你刚才已经问过了
...
A:用二分法,对于排在中间位置的数,比它小就往前排,比它大就往后排...
4. 30个人去旅游,有A、B、C、D、E 5个地方供选择,每人投一票,两种投票方式:
一:选出票数最多的地点(如果票数相同,对于相同地点继续投票)
二:每一轮淘汰一个票数最少的地点,直到只剩一个地点
这两种投票方式有区别吗?为什么?讲出这两种投票方式的优缺点2-3个
一:尽可能满足更多人的第一志愿,二:尽可能提升所有人的平均满意度
5. 提问:
和前面的面试官是一个部门吗?
面试官:你还没有到交叉面试环节
spark sql那一块是不是答得很不好?
面试官:你觉得这是什么原因?
灵魂拷问系列中的两个...,是我面试中度过最漫长的两分钟。最后这两个死亡提问,现在回忆起来仍令我倒吸一口凉气,maybe真是压力面?!但我还是硬着头皮认真解释了刚开始为什么答得不好以及之后的改进方向,可能有扳回0.1成?
四面 2020.04.14 30min (蚂蚁金服交叉面)
1. ccf项目 13min
方案赛和算法赛的区别、复赛思路展开
你们都不是网络安全相关专业的,怎么想到这么去做的呢?
如果不知道业务知识,怎么去分析?
数据如果脱离业务背景,分析就没有意义
企业里复用,对于噪声影响怎么优化分析思路?
具体分工 & 最终得到的结果
2. 简历里提到的用户行为分析 7min
具体:
从用户打开app开始,分析付费用户的前续行为
报表的作用:
为选取搭建基础数据报表体系的指标提供支持,为产品迭代提供方向
除了数据结果,还可以从哪些方向优化app?
3. 迁移到蚂蚁金服的业务(数字金融线),怎么界定行为的转化,比如用户从最初使用余额宝➡️稳健型理财产品➡️风险型基金这样一个进阶过程
定义优质客户:在蚂蚁上花费较多的用户,时间序列观察行为转变过程
定义转化的关键步骤:从数据上发现哪两步之间存在比较大的gap,结合业务定位问题
4. 提问:
面试流程:面试官表示是他老板让他面的,他不清楚我前面的流程,以为是一面
具体工作:用数据指导业务同学推荐适合的理财产品;描绘用户的进阶路线(用户行为模式的探索)
hr面 2020.04.16 30min 视频面
之前没有疫情影响,阿里是要求5月-10月底,具体看同学的时间
10月底会有转正面试,11/12月三方签署
推荐阅读
欢迎长按扫码关注「数据管道」