Python读取Excel计算数据相关性
怎样读取Excel,计算不同数据列之间的相关性?
本次使用“小费数据集”进行演示。
数据集字段说明:
消费总金额(totall_bill)(不含小费)
小费金额(tip)
顾客性别(sex)
消费的星期(day)
消费的时间段(time)
用餐人数(size)
顾客是否抽烟(smoker)
## 1、引入包,读取数据
## 2、转换特征为数字类型
要计算相关性,数据列需要是数字
使用pd.get_dummies自动可以完成,真的很方便
## 3、计算相关性矩阵
## 4、抽取目标列的相关性
可以看到,和小费字段最相关的,是总账单、就餐人数等字段。
## 5、总结
得到数据后,我们经常需要这样的分析,就是得到跟目标列的哪些列相关性最大,用df.corr可以很方便的得到数据,但是在此之前,需要做一下特征处理。
## 6、小知识
相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。通常用来分析两组或多组数据的变化趋势是否一致。
评论