统计学派 18 种经典数据分析方法!
来源:Python数据科学 本文约11000字,建议阅读15分钟
本文为你列举了统计学派中18种经典的数据分析法。
Part1 描述统计
Part2 推论统计
Part3 正态性检验
Part4 假设检验
参数检验
-
单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别; -
配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似; -
两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。
非参数检验
-
虽然是连续数据,但总体分布形态未知或者非正态; -
体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下。
Part5 信度分析
方法
分类
Part6 列联表分析
简介
需要注意
Part7 相关分析
研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。
单相关:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量;
复相关:三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关;
偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。
Part8 方差分析
分类
Part9 回归分析
分类
-
残差检验:观测值与估计值的差值要艰从正态分布。 -
强影响点判断:寻找方式一般分为标准误差法、Mahalanobis距离法。 -
共线性诊断。 -
诊断方式:容忍度、方差扩大因子法(又称膨胀系数VIF)、特征根判定法、条件指针CI、方差比例。 -
处理方法:增加样本容量或选取另外的回归如主成分回归、岭回归等。 -
变呈筛选方式:选择最优回归方程的变里筛选法包括全横型法(CP法)、逐步回归法,向前引入法和向后剔除法。 -
横型诊断方法。
Part10 聚类分析
定义
Part11 判别分析
与聚类分析区别
-
聚类分析可以对样本逬行分类,也可以对指标进行分类;而判别分析只能对样本。 -
聚类分析事先不知道事物的类别,也不知道分几类;而判别分析必须事先知道事物的类别,也知道分几类。 -
聚类分析不需要分类的历史资料,而直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类。
分类
-
Fisher判别分析法 以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类,适用于两类判别; 以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类,适用于多类判别。 -
BAYES判别分析法 BAYES判别分析法比FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,而且分析时考虑了数据的分布状态,所以一般较多使用;
Part12 主成分分析
原理
缺点
-
在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。 -
主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。
Part13 因子分析
与主成分分析比较
-
相同:都能够起到治理多个原始变量内在结构关系的作用。 -
不同:主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法。
用途
-
减少分析变量个数。 -
通过对变量间相关关系探测,将原始变量进行分类。
Part14 时间序列分析
主要方法
时间序列预测法的应用
-
系统描述:根据对系统进行观测得到的时间序列数据,用曲线拟合方法对系统进行客观的描述;
-
系统分析:当观测值取自两个以上变量时,可用一个时间序列中的变化去说明另一个时间序列中的变化,从而深入了解给定时间序列产生的机理;
-
预测未来:一般用ARMA模型拟合时间序列,预测该时间序列未来值;
-
决策和控制:根据时间序列模型可调整输入变量使系统发展过程保持在目标值上,即预测到过程要偏离目标时便可进行必要的控制。
特点
Part15 生存分析
包含内容。
-
描述生存过程,即研究生存时间的分布规律。 -
比较生存过程,即研究两组或多组生存时间的分布规律,并进行比较。 -
分析危险因素,即研究危险因素对生存过程的影响。 -
建立数学模型,即将生存时间与相关危险因素的依存关系用一个数学式子表示出来。
方法
-
乘积极限法(PL法)。 -
寿命表法(LT法)。 -
半参数横型回归分析:在特定的假设之下,建立生存时间随多个危险因素变化的回归方程,这种方法的代表是Cox比例风险回归分析法。 -
参数模型回归分析:已知生存时间服从特定的参数横型时,拟合相应的参数模型,更准确地分析确定变量之间的变化规律。
Part16 典型相关分析
Part17 R0C分析
用途
Part18 其他分析方法
决策树分析与随机森林
来源:
https://zhuanlan.zhihu.com/p/39214084utm_source=wechat_session&utm_medium=social&utm_oi=989900375968858112
评论