上海市携程酒店数据采集及可视化
欢迎关注公众号「月小水长」,唯一笔者是 BuyiXiao,又名小布衣、肖不已。
BuyiXiao,何许人也?本衡州一乡野村夫,身高八尺不足,年方二十有余;弱冠之年曾求学于潭州,为谋生计,背井离乡,远赴京畿,我本南人,不习北土,兼有故友,威逼利诱,急于星火,遂下岭南,打工未半,中道创业,所为何业?赛博朋克,智能硬件;假工程师之名,行农民工之实,满腹经纶,无用书生,善于自黑,贻笑大方。
笔者水平有限,可能暂时无法将非常干货的教程讲的不拖泥带水又不哗众取宠,公众号文章诸多遗漏或不妥之处,可以加月小水长微信「2391527690」备注「学校专业/研究方向/工作岗位」进行交流。
另外,文末点下「赞」和「在看」,这样每次新文章推送,就会第一时间出现在你的订阅号列表里。
酒店的数量、价格、评分和人流量是衡量一个城市消费水平的指标,也间接反映出城市的经济发展水平和居民的生活水平。
我抓取了整个上海的携程酒店数据,一共 6000 余个酒店,包含几十个字段,主要的字段信息如下,并进行了简要的分析。
第一步,先来看看这个 dataframe 的整体分析 df.describle():
discounted_price entity_score star lng lat
count 5712.000000 6013.000000 6203.000000 6203.000000 6203.000000
mean 460.375875 4.216498 2.035467 121.418132 31.220763
std 900.588455 0.664155 1.213317 0.163744 0.191488
min 19.000000 1.000000 0.000000 120.914303 30.707439
25% 152.000000 4.000000 2.000000 121.323827 31.128369
50% 253.000000 4.400000 2.000000 121.432059 31.218784
75% 429.000000 4.700000 3.000000 121.491432 31.292182
max 25017.000000 5.000000 5.000000 121.918401 31.827032
酒店价格最贵 25000 一晚,最低 19 块一晚(可能是青旅),
不愧是魔都,让月薪 1k 的不至于流落街头,年入千万的天天七星级,挺好的。
从价格的中位数来看,只平平无奇,但是从平均价格来看,上海的酒店价格至少是我老家,湖南一个省内著名省外无名三线城市价格的 2 倍。
剔除价格的极端值后,再看可视化看看上海酒店价格的主要分布区间。
可以这么说,至少绝大部分的酒店价格都在 750 以下。
再来看看上海分区的价格情况。
最贵的是黄埔区、徐汇区、杨浦区,最便宜的是嘉定区、奉贤区。
然后看看各字段的相关性分析。
这张图信息量说大也大,毕竟有 16 个图。
说小也小,拆成一个个小图,每一个图都是一个变量关于其他变量的散点图(主对角线上的除外)看 x、y 坐标,同时注意 label 是酒店星级。
其中经纬度和其他变量相关性太小,可以忽略,所以只看左上角四个小图构成的方块即可。
这样一来,可以很快得出一些无用的结论。
-
价格多分布在区间的下行,即大部分酒店价格较低,评分则多分布在区间上行,大部分酒店评分较高,这反映了上海市酒店服务业的整体水平较高。
-
图例表示酒店星级,颜色越深,等级越高,在图中的位置越靠右、越靠上,也就是价格越高、评分越高。
-
价格越低,消费者评分的方差就越大,1-5 分都有分布,价格越高,评分越高,几乎都在 4 分以上。我觉得这有两个原因,第一,价格高的酒店数量远远不如酒店低的数量,第二,花了 2w 块住一晚酒店,那体验能不好吗?
最后,把酒店价格可视化地展示在上海地图上。
柱子颜色深浅代表酒店人气,柱子高度代表酒店价格。
最后一个无用的结论,即大部分高价酒店人气低,大部分低价酒店人气高。
欢迎关注小号「知书客栈」,以后主要灰分享闲言碎语、上游的数据采集、下游的数据分析,以及各种黑科技。
往期精选
复杂网络建模 | 构建 M 层 N 节点的微博深度转发网络
自研小红书评论区自动回复软件,于繁杂的客服流水作业中抽身
小红书帖子和评论自助提取工具