描述样本特征的指标(第三章 统计基础)

摘要:本章介绍了统计基础业余数据学习爱好者的核心概念和描述样本特征的指标,包括数据与数字的区别、样本的定义和特征、参数与统计的区别、误差的类型及其特点,以及同质性、变异和概率的概念。统计学研究目的和随机化原则在描述样本特征指标中起着重要作用。

第三章统计基础

业余数据学习爱好者

描述样本特征的指标(第三章 统计基础)

统计核心概念[1]

统计学描述样本特征的指标

是研究数据收集、整理和分析的科学。

(数据不等于数字,数字没有生命,数据有生命)一般:描述样本特征的指标

观察单位特征的集合(有限和无限)是根据研究目的确定的。

样本:描述样本特征的指标

按照随机化的原则,从整体上提取的部分观察单位的集合。

(统计学的难点概念太抽象,不知道概念的含义。)参数:描述整体特征的指标(μ、δ、π)

统计:描述样本特征的指标(x?、s、p)

误差:测量值与真实值之间的差异

随机误差:意外因素引起的误差(不可避免、可减少)系统误差:实验设计或仪器未校准引起的误差;(可避免)抽样误差:抽样引起的样总参数之间的差异。(不可避免)同质性:观察对象的影响因素相同(相对)变异:同质性基础上的个体差异(绝对)没有同质性,就没有统计学产生的必要概率(P):一种反映事件可能性的量度。P(A)=1必然事件(不研究此类事件)P(A)=0不可能的事件(不研究)0小概率事件:P≤0.05或P≤0.01小概率事件在事件过程中不可能发生(小概率事件存在的意义)。问:为什么小概率事件定在P≤0.05?答:这是我们人类的常识。有些人说我也是人类。为什么我没有这个常识?事实上,你也有,但你没有找到它。让我们一起做一个实验。稍后我会问你几个问题。请根据你自己的判断说是否可以。问题开始:(1)你能扔掉一枚硬币,然后向上落地吗(2)你能连续扔掉两次,向上走吗(3)你能连续扔掉三次,向上走吗(4)你能连续扔掉四次,向上走吗(5)你能连续扔掉五次,向上走吗?200多年前,英国在一个会场进行了这次实验。很少有人发现一个会场连续四次说可以。当连续五次时,几乎没有人说可以。我们用统计理论看刚才的实验,连续一次的概率是0.5;2次概率为0.25;3次概率为0.125;4次概率为0.0625;5次概率为0.03125;因此,近似取两个中间值,即0.05.小概率事件的应用意义

小概率事件的应用意义在于小概率事件在一次试验中是不可能发生的(P<0.05大约等于0)。事件根据发生概率分为三类;P=1对于不可避免的事件,如果苹果树掉下来,肯定会发生事件;P=0不可能发生的事件;绝大多数科学研究都是0

上联:大爱无疆(当你得到的时候P值大于0.05,组间无差异)

下联:小心(当你得到它时)P值小于0.05,组间是否有差异)

横批:相似(当你得到它时)P值大于0.05,组间没有区别;当你得到的时候P值小于0.05,组间是否有差异)

变量:观察单位的特征,流行的指标。如:年龄、性别、身高、体重、血型、疗效、工资、课程成绩等变量类型

测量变量(数值变量)具有大小、单位、可测量和可定量比较。(身高、体重、生活费、月话费等。)记数变量(分类变量)反映不相容的属性和类别。(性别、血型、区域等。3.一种分类变量(有序变量),可以反映不同程度的关系。(职称、病情程度)

计量数据的统计描述

集中趋势描述指标

描述一组数据的平均数量水平,用不同的符号表示整体平均数和样本平均数:对称分布,特别是正态分布数据。几何平均数(G)*描述正偏态数据集中趋势的描述*适用范围:对数正态分布数据和对比数据。

适用范围:万金油相对于均数比较慢,只有样本量充足,结果才稳定。(mode)

所有值中最常见的应用范围之一:外国离散趋势描述指标(6)

极差(R)概念:一组数据的最大值和最小值之间的差异

优点:计算简单,易于理解缺点:不稳定

四分位数间距(Q)

优点:计算简单,易于理解,缺点相对稳定:点盖表面,缺乏代表性

平方和离均差(SS)概念:将离均差先平方再求和,称平方和离均差。

计算公式:

优点:易于理解,相对稳定,考虑到每个变量值的缺点:不考虑样本量

总体方差(σ2)

缺点:不考虑平方放大效应

标准差(σ)

优点:考虑每个值,方便数学操作,考虑样本量,考虑放大影响评价:是一个完美的指标!

样本方差和标准差的计算公式

方差公式:

标准差公式:

变异系数(CV)定义:标准差S与均数x?以百分比表示,CV是相对数公式:

CV1.只适用于衡量不同数据间离散趋势的比较。2.单位相同,但平均差异较大,比较。

6指标,2搭档

百分位数(Px)适用于各种分布

形状描述指标(Distribution)进一步描述某一分布的特征,主要用户正态分布偏度系数Skewness正态峰态偏态偏态峰态系数Kurtosis正态峰平阔峰尖峰

均数估计与可信区间点估计:采用样本统计量直接作为总体参数的估计值,方法简单,但未考虑抽样误差。区间估计:根据预先给定的概率(1-α)确定未知总参数的可能范围,称为参数的可信范围(ConfidenceInterval,CI)

率(rate):描述事件的强度和频率

构成比(proportion):描述事物内部各部分的比例

相对比(ratio)

统计的核心价值

抽样思想假设测试小概率思想误差控制思想找到38478654原始描述样本特征指标设计图片,包括指标图片、材料、海报、证书背景、源文件,包括PSD、PNG、JPG、AI、CDR等格式素材!

毕业证样本网创作《描述样本特征的指标(第三章 统计基础)》发布不易,请尊重! 转转请注明出处:https://www.czyyhgd.com/183340.html

(0)
上一篇 2022年4月30日
下一篇 2022年4月30日

相关推荐

  • 描述样本特征的指标(第三章 统计基础)

    摘要:本章介绍了统计基础业余数据学习爱好者的核心概念和描述样本特征的指标,包括数据与数字的区别、样本的定义和特征、参数与统计的区别、误差的类型及其特点,以及同质性、变异和概率的概念。统计学研究目的和随机化原则在描述样本特征指标中起着重要作用。

    2022年4月30日 上午1:28
    240
客服微信
客服微信
返回顶部