只要方向正确,就应该开始。
一、总体(population)和样本(sample)
总体:统计学所说的样本
整个研究对象群体。
样本:统计学中提到的样本
从整体中选择的部分。
样本数量:统计学中提到的样本
样本有多少个?
样本大小(样本容量):每个样本中包含多少数据。
抽样分布:可视化样本平均分布。
二、中心极限定理(centrallimittheorem)
中心极限定理:样本平均值约等于整体平均值,无论整体分布如何,任何整体样本平均值都将围绕整体平均值和正态分布。如下:
中心极限定理的作用:
1)样本估计总体(民意调查)
2)根据整体信息,判断样本是否属于整体(3个标准差,概率97%)
三、如何用样本估计整体情况
(1)选择正确的抽样方法
因为很多时候我们无法选择所有数据进行调查,这时候一般采用从整体中抽取样本进行调研。
抽样方法:抽样简单随机、分层抽样、整组抽样、系统抽样等。
①抽样简单随机
抽样简单随机就是通过随机过程选取一个大小为n样本,所有大小n选择样本的可能性是一样的。
抽样简单随机有两种具体做法:重复抽样和不重复抽样。
重复抽样:在选择抽样单位并记录抽样单位的相关信息后,将该单位放回整体。
不重复抽样:抽样后不再放回样品整体。
②分层抽样
分层抽样是根据特征将整体划分为不同的层,随机抽样每个层,然后检查每个层在整体中的比例,最后根据相应的比例从每个层中提取。
③整群抽样
整体抽样是将整体分为几个相似的组,先通过简单的随机抽样选择组,再对组中的对象进行抽样。
④系统抽样
先选一个数字k,然后每到k提取一个对象,形成样本。
(2)使用样本的平均值约平均值(中心极限定理)
(3)利用总体标准差估计:
标准差:测量数据集的波动大小
标准误差:衡量样本平均值的波动
总体方差公式估计:
(4)Python代码实现
随机数random模块:
抽奖案例:
pandas数据框(DataFrame)抽样方法:
四、如何避免偏差
1)样品偏差:抽样空间中的项目不完整,因此目标整体中的所有对象都不包括在内,俗称偏概全。
避免措施:样本数量增加,样本越大越可靠,基于小样本的结论一般存在偏见问题。
2)幸存者偏差:根据成功的样本收集数据,但由于幸存者的概率极小,不具代表性。
避免措施:学会从多个角度全面观察问题,学会屏蔽噪音。
3)概率偏见:就是根据人们心目中的概率(心理概率)和客观的概率不吻合,而造成的偏差。
4)信息茧房:指人们的信息领域习惯性地被自己的兴趣所引导,从而将自己的生活束缚在茧房中。
避免措施:避免个性化建议。找到95085874张原始统计样本设计图片,包括样本图片、材料、海报、证书背景、源文件PSD、PNG、JPG、AI、CDR等格式素材!
毕业证样本网创作《统计学中提到的样本(统计学的总体和样本)》发布不易,请尊重! 转转请注明出处:https://www.czyyhgd.com/180395.html