一个案例教会你:如何对产品做数据分析?

Python学习与数据挖掘

共 2845字,需浏览 6分钟

 ·

2020-12-05 18:12

点击关注"Python学习与数据挖掘"

更多超级干货第一时间推送给你哦!!!


本文来自:知乎

本文所分析的数据是天猫电商平台关于婴幼儿的产品在2012年7月2日至2015年2月5日的销售详细数据,数据包含两个文件,分别是购买商品的信息以及婴儿信息,主要涵盖的数据字段以及含义如下:

user_id:用户id,用户登录时的账户名称。

auction_id:购买行为编号,用户购买行为的唯一识别编号。

cat_id:商品种类ID,购买商品的种类。

cat1:商品属于哪个类别,商品类别。

property:商品属性,商品的基本属性。

buy_mount:购买数量。

day:购买时间。

birthday:出生日期,婴儿的出生日期。

gender:性别(0 男性;1 女性)

下面我们就可以开始进行数据分析了!


一、分析目的


希望可以通过对数据中的信息进行挖掘,找出需要进行改善的地方,针对性的采取措施,从而提高最后的产品销量。



二、分析思路


  1. 销量随时间变化的规律是怎样的?

  2. 婴儿年龄对产品销量的影响?

  3. 婴儿性别对产品销量的影响?



三、分析内容


这里要分析销量的各种关系,所以先对销量数据进行数据清洗:

从购买数据可以发现,平均购买量为2.5,这里最大购买数量居然达到了10000,所以购买数据中存在异常数据,这里的处理方法是将超过平均值3倍标准差的异常数据进行剔除,平均值为2.5,标准差为63,剔除购买数量大于191.5的数据。

1、销量随时间变化的规律
通过统计数据发现,2015年的销量出现了断崖式下跌。
首先,我们要分析的问题是2015年销量下降的原因是什么?

这里将购买数量大于2的用户筛选出来,这里统计出共52位用户,占总用户数的52/29971=0.0017,占比较少,所以不再分析,着重分析新用户购买量。

结论1:老用户占比较小,所以对销量的影响较小,老用户购买量下降导致2015年销量下降的假设不成立。

这里通过对数据处理可以发现,2015年的数据只有1,2月的数据,这可能就是数据的不完整导致了2015年的购买数量出现了大幅的下降。

我们进一步的对每一年的1,2月份的购买数量进行对比,进一步发掘2015年的1,2月的购买数量是否真的出现了下降。

结论2:通过对比分析可知,2015年1、2月的购买数量相比较2013以及2014年并没有大幅的下降,所以2015年销量下降的原因是数据不完整所造成。
当将销量的数据的时间维度拉到季度后可以发现,三四季度的销量发生了上涨。
因此我们的第二个问题是第四季度销量全年较高的原因是什么?
这里我们要用到假设验证方法:
如果假设是因为老用户再次购买数量的提升,通过统计可知,再次购买的老用户的购买数量位90个,占比较少,所以此假设不成立。

接着我们再做出假设,可能是因为双十一及其他活动造成单月销量增加,然后我们要去搜集证据验证这个理论:

从图中可以看出,2012-2014年间,11月份的销售数据是当年最好的,所以11月份的销售数据对第四季度的影响最大,这里再对11月份的详细数据进一步的分析。

从图中可以发现11月中11号的销售数据出现了较高值,所以可能是双11促销活动提升了产品销量。

结论:从以上数据可以得出,四季度销售数据的提高主要是双11活动的拉动,假设成立。

那有没有可能还是别的原因造成第四季度上升的呢,我们再做出假设三:可能是因为爆款产品的出现拉动了四季度产品的销售数据。

通过对不同产品的销量数据进行统计可以发现,500118831销量占比最高,所以下面从这这个产品的销量数据入手进行分析。

从图中可以发现500118831在11月份的销量出现了遥遥领先的数据,购买量急剧的提高。

结论:爆款产品500118831拉动了四季度的销售数据。
2、婴儿性别对产品销量的影响关系
假设1:异常数据

从上面两幅图可以清晰的发现,男童用户的几笔大额交易的购买数量位160以及40个左右,而女童用户的购买数量最大只有13个左右,因此这几笔较大的交易量使得男童的购买量大于女童,这里需要对数据进行进一步的分析,研究数据来源是否准确,到底是因为用户本身造成的偏差还是数据来源的问题。
结论1:异常数据对结果造成的偏差,假设成立。

假设2:男童数量大于女童

结论2:从性别分布图中可以发现,男女比例基本相同,所以假设2不成立。

假设3:年龄对购买量有影响,且男童的年龄分布与女童不同

对比分析:
(1)相同性别内年龄分布对购买数量的影响
男童年龄分布对购买量的影响
女童年龄分布对购买量的影响
从上述两幅图中可以发现,无论是男童还是女童,0-1岁的年龄购买量是最高。

(2)男童与女童的年龄分布

从图中可以发现,男童以及女童的年龄分布是类似的,也就是0-1岁分布的最为聚集,综合上述的分析可以得出

结论3:0-1岁孩童的购买量最多,男童和女童的年龄分布又较为类似,因此男童和女童年龄分布差异对销量影响的假设不成立。

3、婴儿年龄与产品销量的关系

在婴儿性别对产品销量影响的分析中发现,0-1岁的购买量最大,之后随着年龄的增加,购买量逐渐下降。
这里提出假设:可能是商品主要面对低龄儿童,高龄儿童的商品缺乏,导致了随着年龄的增长,商品销量逐渐下降。
从图中可以发现,不同商品即使销量不同,但是趋势类似,即随着年龄的增加,商品的销量出现了较为明显的下降。
结论1:主要的商品面对的是低龄儿童,所以随着年龄的增加,产品购买量出现了明显下降。
结论与建议


结论:
  1. 2015年的销量出现了异常是因为源数据的不完整所导致。

  2. 四季度是婴儿产品销量的高峰期,其主要原因是双十一等促销活动的开展对产品销量的促进,同时爆款产品的出现也对销量的提升有很大的帮助。

  3. 婴儿性别与商品销量的关系主要是几笔较大的购买造成,与婴儿本身性别关系无关。

  4. 电商的商品主要面对低龄儿童,因此随着婴儿年龄的增长,商品的销量出现了下降。

建议:
  1. 建议在商品销量较低的月份采用促销的方式来促进淡季的销售数据。

  2. 调整产品范围,缩减适用于5岁后孩子的产品,集中供应0-1岁的婴幼儿产品。尤其是要丰富1岁前孩子适用的婴幼儿产品,特别是男童,给顾客创造更多消费的机会。

  3. 针对不同的客户采取不同的营销策略,例如对一些购买量较大,购买频率较低的顾客要多加交流和联系,提高购买次数。

另外,再送大家一份《Python数据科学手册

以大数据、云计算、物联网、人工智能等新技术所推动的数字化转型正迅速的改变着我们所处的时代,各大互联网公司都积累了大量的用户数据,比如购物、社交、出行等。充分挖掘数据价值,就是需要不断的和数据打交道。

如果你数据分析、数据挖掘、数据化运营感兴趣,却又无从下手,那么我来给你推荐一本不错的书籍--《Python数据科学手册》。

领取方式:

长按扫码,发消息 [数据分析]


浏览 100
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报