图解统计学:简单易懂的基础概率&描述性统计
共 1459字,需浏览 3分钟
·
2020-12-24 00:35
hyn | 作者
知乎专栏 | 来源
https://zhuanlan.zhihu.com/p/40756359
从小偏文科的我,听到数学相关的知识就头疼,更是毫无统计学基础,之前用 Excel做零售分析时也从没觉得统计学和数据分析有什么必要关联。直到这段时间通过各平台搜集到的数据分析相关资料、书籍了解到,学习数据分析,统计学基础必不可少。今天这篇文章就简单说一下我近期学习到的统计学中的描述性统计分析以及基础概率知识。
1
描述性统计
统计性描述分析是作为统计分析的第一步,在日常的数据分析中其实我们经常使用一些特征值,尤其是我们做周报或者月报的分析时,这些描述性的统计分析特征值对于我们有一定的帮助,描述性统计分析是进行正确的统计推断的先决条件。通过数据的分布类型和特点、集中和离散程度可进行初步分析。
描述性统计有几个常用指标,分别是:平均值、四分位数、标准差、标准分。
(1)平均值(μ:读“miu”),平均值是统计学最常用的统计量,是集中趋势最常用的测度值,除平均数外还有众数、中位数等集中趋势常用值。
平均数:就是一组数据之和除以这组数据的个数,缺点是对异常值不敏感。
众数:指一组数据中出现次数最多的那个数据,一组数据可以有多个众数,也可以没有众数。
中位数:将一组数据按大小顺序排列起来,形成一个数列,如果这组数据的个数为奇数,则居于数列中间位置的那个数据就是中位数,如数据个数为偶数,那么中位数就是位于中间的两个数值的平均值。
(2)四分位数:将一组数据从小到大升序排列,分成4等分,处于1/4,1/2,3/4的数值是四分位数,我们将这三个数值分别称为:下四分位数、中位数、上四分位数。
四分位数有一个非常生动的表现形式,就是箱线图,我们可以通过箱线图来比较不同类别的数据。
我们还可以应用四分位数通过Tukey's test方法来识别出一组数据中可能的异常值。
蓝色范围就是极度异常数值,红色则为中度异常数值。
(3)标准差(读“西格玛”),方差的算术平方根,反映一组数据内个体间的离散程度(也称为波动大小)。
(4)标准分,用来表示一组数据中某个数值距离平均值多少个标准差:
2
概率
概率,简单来说就是用数值来表示某件事发生的可能性,这个数值一定是介于0和1之间的。
简单的概率计算可以总结为一个公式:
复杂的概率计算有两种方法:
方法一:寻找行业里权威机构发布的概率作为参考
方法二:数据分析
可以应用在生活中的几种概率思维:
赌徒谬论
赌徒谬论也称为蒙地卡罗谬论,是一种错误的信念,以为随机序列中一个事件发生的机会率与之前发生的事件有关,即其发生的机会率会随着之前没有发生该事件的次数而上升。如重复抛一个公平硬币,而连续多次抛出反面朝上,赌徒可能错误地认为,下一次抛出正面的机会会较大。
独立事件这一概念就可以详细解释为何以上观念会被称为谬论。独立事件就是事件B发生或不发生对事件A不产生影响,就说事件A与事件B之间存在某种“独立性”,其对象可以是多个。
大数定律
想要理解大数定律,必须先了解什么事小数定律:
本章学习内容只是笼统的概括了跟数据分析相关的统计学基础知识,关于统计学,还有很多值得我们去探索、学习,去从中发现乐趣。了解统计学才能为我的数据分析奠定坚实的基础。路还很长,坚持下去。