爬取了20W+条猫咪数据,awsl……
大家好,欢迎来到 Crossin的编程教室 !
不知道是否有人和我一样,每次看到可爱的猫咪表情包,总是会忍不住收藏。
身边也有许多朋友都养了猫,看着他们整天在朋友圈发撸猫视频,我十分心动。于是找到了一个专门交易猫猫的网站:
猫咪交易网
www.maomijiaoyi.com
这个网站上可以查看各种猫猫的品种介绍和交易信息。
于是,我从上面爬取了 20W+ 条数据,以此来了解一下可爱的猫咪。
获取数据后,我从以下维度进行了探索性分析:
接下来就给大家分享一下抓取和分析的过程以及结果。
数据获取
打开猫咪交易网,先爬取猫猫品种数据,打开页面可以看到猫猫品种列表:
但只显示了每种猫猫的品种名,参考价格,这些数据还不够,所以点进去,爬取更加详细的数据。
品种名,参考价格,中文学名,基本信息,性格特点,生活习性,优缺点,喂养方法等:
爬取的代码不算难,但这次特意加了进度条功能,可以显示爬取进度:
以上就是猫猫品种的数据来自哪里,接下来是获取猫猫交易数据,进入到买猫卖猫页面:
滑到最底下,可以看到显示有多少页数据,共多少条,此时显示的是 31W,使用多进程爬取了 20W:
当然,爬取的数据是进入详情页后进行爬取的,包含价格,标题,在售只数,猫龄,预防等:
由于数据太多,所以选择了分步爬取:先爬取每一页中的所有猫猫详情交易链接的 url 保存进 csv,在读取 csv 一次爬取每条交易数据,于是乎 20W 数据的来源就有了。
数据探索
在这之前呢,我对猫的品种并不是很清楚,只知道几个经常听见布偶猫、橘猫等。
于是画个了词云,来直观的瞅一瞅猫猫还有哪些品种:
了解了品种后,想知道这些品种的猫猫原产地都是来自哪里。看了下数据,除了橘猫是世界各地都有的,其他品种猫猫的主要分布如下图:
加拿大、美国、英国、埃及、泰国、阿富汗是大多数猫猫品种们的原产地。
那猫猫品种的体型分布如何呢,我们一起来看看呗:
在所有品种中,大型的只有一个品种:布偶猫。其他品种都是中小型的类型。
猫猫们很多品种都很可爱,那大家一般都喜欢从什么角度来描述呢:
从颜色方面,蓝色,黑色,红色形容猫猫的次数最多;
性格方面,对人友善;
观看角度方面从侧面看,后面看最合适。
了解了品种之后,再一起来看看交易的数据吧。
首先来看看交易主要分布在哪些区域:
四川,重庆,广东是猫猫交易最多的省份。
主要的交易品种:
橘猫最多(果然世界各地都有橘猫……),其次是咖啡猫,布偶猫,英短蓝白猫。
要买猫当然还得看看价格,对于每种品种的猫猫来说,买的时候有个平均价格参考,心中有个数才好把握:
缅因猫均价最高。不过我对它不是很了解,倒是觉得第2的布偶猫非常可爱。
这些猫猫一般猫龄是多大呢?
主要分布在 1-9 个月之间,都是刚出生未满一岁的小猫咪,等待有缘人成为它们的主人铲屎官。
那在这些数据中,影响猫猫价格的因素有哪些?
我先从浏览次数与价格进行分析,浏览次数一定程度上反映了猫猫的热度,所以绘制散点图:
从结果上看浏览次数与价格并不存在明显的相关性。
那时候跟猫猫年龄有关呢?通过箱型图来查看一下:
可以看到年龄是影响价格的一个因素,1-9 个月的猫猫价格分布在 500-1700 之间,而大于 9 个月的猫猫价格都在 1300 以上,且价格分布明显不同。
在确定与年龄有关后,是否与预防针次数有关呢?
预防针次数也是与价格相关的,0针,1-2针,3针的价格区间分布明显不同,多以预防针次数也是一个影响因素。
是否包邮,是否能视频看猫猫,是否纯种都是影响价格的因素,且三者存在共线性:
所以影响价格的因素猫猫价格的相关因素主要有年龄、预防次数、邮费、是否纯种、能否看视频等。
数据及源码
数据:
https://www.kesci.com/mw/project/6018ba26a93d4a001538992b/dataset
分析源码:
https://www.kesci.com/mw/project/6018ba26a93d4a001538992b
(为避免影响对方网站正常运行,这里我给大家提供了我采集好的数据。爬虫部分代码恕不提供,望理解)
以上便是我对20w猫咪数据的整理分析。如果文章对你有帮助,欢迎转发/点赞/收藏~
作者:木下瞳
_往期文章推荐_