统计学知识大梳理
数学算法俱乐部
共 6716字,需浏览 14分钟
· 2021-03-29
日期 : 2021年03月28日
正文共 :6495字
目标一:构建出可以让人理解的知识架构,让读者对这个知识体系一览无余 目标二:尽l量阐述每个知识在数据分析工作中的使用场景及边界条件 目标三:为读者搭建从“理论”到“实践"的桥梁
![](https://filescdn.proginn.com/236908417dad2de1d4c47920d7a78f7f/d36e5e914929312f4914a8c36c64a5c5.webp)
![](https://filescdn.proginn.com/348d7ffd0cdce079ff1e59c03cf77727/a8b7b5d1a55167541cd49bd9beb25e60.webp)
![](https://filescdn.proginn.com/ff29699ec88b37e9500a47886cb22ade/d68d086e2a5153a1990019b0df454387.webp)
![](https://filescdn.proginn.com/e69cef639607b0464098427623fda66c/b6807f37ef63d881c23709f2d24beceb.webp)
![](https://filescdn.proginn.com/1b9fb64dcca512350119dec7ee839efc/4c45d78da3d5544b5eee4ef1c4f55c55.webp)
![](https://filescdn.proginn.com/67515fa483cd1fdf42986c3797eee111/bdfb24137c287ab49c5222ce6c678723.webp)
![](https://filescdn.proginn.com/7fce0c13b5902a5000f79b9d237d9032/ce35a89634a9e2429498c240c72713b1.webp)
Q1:第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。 Q2:第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。 Q3:第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
![](https://filescdn.proginn.com/044b2e96912e1e3584bc9a34541b75f7/43289a66ec99b5ba946951402c4492e7.webp)
![](https://filescdn.proginn.com/08cfeb93543978b9e7496d411ecf74ac/16c5aa256803c41e16a924a29544ee51.webp)
![](https://filescdn.proginn.com/4940d96c346fab0f664dd60cd6efcbfb/5094722f74ccdcf03a773d8dba62f048.webp)
![](https://filescdn.proginn.com/2de45d38243343b612a1d5aeabd52363/f51b944ab1d86c9a826b661ee123d5db.webp)
事件:有概率可言的一件事情,一个事情可能会发生很多结果,结果和结果之间要完全穷尽,相互独立。 概率:每一种结果发生的可能性。所有结果的可能性相加等于1,也就是必然!!! 概率分布:我们把事件和事件所对应的概率组织起来,就是这个事件的概率分布。
![](https://filescdn.proginn.com/ffa3ddc838fae1b4c2d75230dab6a9ee/7d42b9234a426911559e26e44e7df4b1.webp)
![](https://filescdn.proginn.com/3b36ad516e380c2f84382eab27bfbf80/f07b9fb71d8a59d8b1108f567c1efdd8.webp)
![](https://filescdn.proginn.com/0f0b40e6646803c463243f79011a63ec/7df3d28835248ee101ae0a3a62816d0e.webp)
![](https://filescdn.proginn.com/ad751bca5a584878c6c3dd98a2a6d7cc/2edd908c581beeacaac194e457dd998f.webp)
离散数据: 一个粒儿,一个粒儿的数据就是离散型数据。 连续数据: 一个串儿,一个串儿的数据就是连续型数据。
![](https://filescdn.proginn.com/f4cfcfbd03c4cc0833d1f90755bea4ea/6874806e020b09832facef378097a78a.webp)
![](https://filescdn.proginn.com/316054a865ec71723fe179524bbe0370/5168c67c69f9851b57014f8d0dadc4fe.webp)
step1 --- 确定分布和范围 ,求出均值和方差 step2 --- 利用标准分将正态分布转化为标准正态分布 (还记得 第一部分的标准分吗?) step3 ---查表找概率
![](https://filescdn.proginn.com/d0982774bcd03b8462f5a6044ce84690/9844558f23fc47350fd452ffeb744fda.webp)
对立事件:如果一个事件,A’包含所有A不包含的可能性,那么我们称A’和A是互为对立事件 穷尽事件:如何A和B为穷尽事件,那么A和B的并集为1 互斥事件:如何A和B为互斥事件,那么A和B没有任何交集 独立事件:如果A件事的结果不会影响B事件结果的概率分布那么A和B互为独立事件。
![](https://filescdn.proginn.com/7ead98f4203b17cbdc769f3d19cac5fb/be7c796073e9e0e2883c173d8705c1f2.webp)
![](https://filescdn.proginn.com/c50a4c500229a2f8827f0273e2a89217/5319d17105bc3b6f7573ecd2df8bc744.webp)
![](https://filescdn.proginn.com/8c709e82aeea9346d065d0781c8c1393/50b922c63e740325cbaace5bceec4a4d.webp)
![](https://filescdn.proginn.com/8c50a7daf79b28de6059045aa1a940bc/134cb58f61d90c7dfe42c3ec33e89aba.webp)
总体:你研究的所有事件的集合 样本:总体中选取相对较小的集合,用于做出关于总体本身的结论 偏倚:样本不能代表目标总体,说明该样本存在偏倚 简单随机抽样: 随机抽取单位形成样本。 分成抽样: 总体分成几组或者几层,对每一层执行简单随机抽样 系统抽样:选取一个参数K,每到第K个抽样单位,抽样一次。
![](https://filescdn.proginn.com/0813a0a0e6125d617822a984ba44ae6c/0fe23f6e72639db3fdb7b5996f4e3add.webp)
![](https://filescdn.proginn.com/dc8712ebc03d085233b8bfff35162fd1/35513b704d39070009222a7ddaa769dc.webp)
![](https://filescdn.proginn.com/760e8d2311898cdec3f97acc46e98dcd/931c4e080a1dfd3234cb34cd5b6ce7e7.webp)
![](https://filescdn.proginn.com/3989da548e1ad49acda2d05f7ee89c3e/ac7ec3373c07012523c99eb303b46a79.webp)
![](https://filescdn.proginn.com/0af02bb0e0ebecfd54f34b9694eefbef/b97408cfa02e7c2747d6a1f0e6e0d0a8.webp)
![](https://filescdn.proginn.com/777ea4d6a888715e897adfb405f4cd80/68c6c7aaf4466d88c3b12b90bc8f7fca.webp)
![](https://filescdn.proginn.com/0abcaa499be3c17566ca631efb8d7a7e/cd53f66dca9fc909489f989784e01397.webp)
![](https://filescdn.proginn.com/7fcc2f35174f86a066bf82ef9f989ef9/4aa060ee67d36c3ef317904df41b0a4b.webp)
![](https://filescdn.proginn.com/99f3d82c71b7c15c1b517b2ff9d9c72c/376ea8ac839c70b4f7604ab25a8beaeb.webp)
卡方分布的应用场景 用途1:用于检验拟合优度。也就是检验一组给定的数据与指定分布的吻合程度; 用途2:检验两个变量的独立性。通过卡方分布可以检查变量之间是否存在某种关联:
![](https://filescdn.proginn.com/5119973ca4b865632112d32f09f7cb9b/c886c0debb74ca870e285a286d510e9f.webp)
![](https://filescdn.proginn.com/088a59e85da6cb34b76d8ae463002403/367e9a9a1dc5bea212ec6f15aaaece5d.webp)
第一类错误: 拒绝了一个正确的假设,错杀了一个好人 第二类错误:接收了一个错误的假设,放过了一个坏人
![](https://filescdn.proginn.com/9f7ffedb92900ea57f584cd3279a9fd8/10a2a2bbf129a0703a46788d23360eb9.webp)
![](https://filescdn.proginn.com/fcb2a98eb9b7047eda22688e30e54133/d924fb39f21e33d7fe70d7cca86500d7.webp)
![](https://filescdn.proginn.com/a39c6a0bc1e02fd871eb42a2687e18b6/804bcd668e58353c45477a597fc425eb.webp)
— THE END —
![](https://filescdn.proginn.com/0f2565920bed3a135a485e1396a58547/6ed2bd6da170e820346df1a56e0e1172.webp)
评论