描述性分析基本统计量介绍
努力生活,追求自由
在数据分析中,一旦要描述数据的特征,就需要了解一些基本的描述统计。
一、统计量表示集中趋势
均值:描述样本的统计量
平均值可分为计算平均值、调和平均值、平方平均值和几何平均值1>计算平均值。算术平均值是集中趋势中常用且重要的测量值,是将总标志总量除以总单位总量获得的平均值。计算方法如下
,如果所给的资料是已经分组的次数分布数列(将总体的所有单位按照某个标志分组归类,将各组的总体单位数汇总,并按一定的顺序排列,形成的总体单位在各组的分布称为次数分布。分布在各组的单位数称为次数或频数,各组次数与总次数的比值称为频率),则算数平均数的计算应采用加权平均数的形式。加权算数平均数的计算方法如下:描述样本的统计量
=2>调和平均值。调和平均值又称倒数平均值,是根据各变量值的倒数计算的平均值,调和平均值是各变量值的倒数平均值。凡是涉及增量相同求平均数的问题都属于调和平均数问题,比如等距离求平均速度问题、等溶质增减溶剂问题、等发车前后过车问题。其计算方法如下:描述样本的统计量
3>几何平均。几何平均与算数平均和调和平均完全不同的另一个平均指标是几何平均几何平均数平均数(几何级数是数学术语,表示前等比数n项和,也被称为等比级数)。几何平均数是计算平均率或平均发展速度的常用统计量,以反映整体现象水平。几何平均数有两种:简单和加权。计算公式如下
4>平方平均数。平方平均数(quadraticmean),又称均方根(rootmeansquare),英文缩写RMS。并非所有模型都适用于方根平均值,只适用于数值分布呈正态分布;如果分布呈方波和三角波,则失真较大,不再适用。计算方法如下
以上四种平均数可以通过几何方式显示。具体演示如下
中位数中位数是将总单位某一变量的每个变量值按大小顺序排列的变量值。在数据未分组的情况下,各变量值按大小顺序排列,首先确定中位数的位置,可用公式确定,n代表总单位的项数;当n当是奇数项时,中位数是中间位置的变量值;当n中位数是位于中间位置的两个变量值的平均值。
众数众数是总体中出现次数较多的标志值。众数只有在总体单位较多而又有明确的集中趋势的资料中才有意义。单项数列中,出现最多的那个组的标志值就是众数。若在数列中有两组的次数是相同,且次数最多,则就是双众数或复众数。
百分位数百分位数(percentile,Px)是将n从小到大依次排列观察值后,对应x%值;理论上将原始观察值分为两部分x观察值小于%Px,有(100-x)观察值大于%Px。对于频率表数据,百分位数的计算公式是
其中L组段的下限是欲望的百分位数,i为组段的组距,fx为组段内的频数,n为总频数,FL为小于L该组段的累计频率。例如,50例链球菌咽峡炎患者的潜伏期如下表所示,试着计算潜伏期的中位数。
累积频率12~18121224~3071481636~~~~~9048469296~~从累计频率可以判断每个组段的总频率、累计频率和累计频率P50位于“48~代入相应的数据
*50%-19)=54.55h
百分位数通常有四分位间距,P75与P25分别称为上四分位数和下四分位数。四分位数间距定义为P75-P25,即Q=P75-P25。理论上,个体观察值比总体上为1/4P25个体观察值比小1/4P75大,所以P25与P75与同类数据相比,恰好包括整体50%的个体观察值,Q越大,数据间的变化就越大。四分位间距可用于各种分布数据,特别是服从偏态分布的变量。百分位数适用于定序数据和更先进的数据,而不是定类数据。百分位数的优点是不受极端值的影响。
二、表示离中趋势的统计量
方差和四分位间距不考虑每个观察值的离散程度,因此考虑使用每个观察值X但平均值之和,但(X-)有正有负,正负相抵产生0值,用绝对值,数学上很难处理。因此,考虑对每个观察值的平均值进行再求和,即反映所有观察值的变化大小。由于计算平均值和平均值,平均值和平均值会随着个人数量的增加而变得非常大,无法描述数据的变化程度,因此平均值和平均值得到方差。
方差,又称方差(meansquaredeviation),总体方差表示,与类似数据相比,方差越大,数据间离散程度越大或变量变异越大。
在实际应用中,总平均值和总平均值往往是未知的。因此,在抽样研究中,常用样本平均值估计总平均值,样本方差估计总方差。样本方差表示计算公式为
使用第二个公式的优点是可以直接使用原始数据而不需要求平均值,节省计算时间。
其中,为样本平均值,为样本含量。由于抽样误差,通常数学可以证明当时总是小于。因此,用作分母计算的比例较小(有偏见估计),因此建议用它代替计算。此外,它也被称为自由(degreesoffreedom,d),常用表示。自由是统计学中常用的术语,在样本方差中的意义是:当确定时,随机变量X能自由取值的数量。例如一个=4、=5样本中,只有三个离均差可以独立自由取值,即=4-1。受此条件的限制,如果分别确定了三个离均差的值-3,-2和3,剩下的离均差只能等于2,推而广之,任何统计自由度限制的数量。
此外,在数据分组中,采用加权平均公式,如下公式
,为组中值,为各组段频数,为总频数。
标准差(standarddeviation)方差的平方根是标准差。方差利用所有观察值的信息来描述变量的变化程度。与方差不同,标准差具有数量大纲。它与值得测量的变量单元相同,其实际意义应该明确。因此,标准差在实际应用中更为常用。与类似数据进行比较时,标准差越大,观察值的离散程度越大,或变化程度越大。方差和标准差适用于对称分布的变量,特别是服从正态分布或近似正态分布,通常将平均值和标准差()结合起来,从平均水平和变化程度描述变量的分布特征。
当数据未分组时,计算如下
在数据分组的情况下,加权平均计算如下
,其中,基于分组后计算的平均值为组中值、每个组段的频率和总频率。
变异系数(cofficientofvariation,CV)变异系数主要用于不同变量间变异程度的比较,特别是不同变量间的比较。变异系数是将标准差或平均差与平均值进行比较,也称为离散系数,计算公式如下
标准差系数和平均差系数分别表示。
三、表示分布形式的统计量
偏差偏差是对分布倾斜方向和程度的测量。偏差系数需要计算来测量偏差的程度,这里只介绍了中心矩偏差测量方法。三阶中心矩常用于表示数据分布的相对偏差。其计算公式如下
,在公式中,为正,表示分布为右偏分布,也称为正偏峰分布,其倾斜方向为右;为负,表示分布为左偏,也称为负偏分布,其倾斜方向为左。
峰度峰度是与正态分布相比,频数分布曲线顶部的尖度。计算如下图所示:
分布曲线为正态分布;
分布曲线为平峰分布;
分布曲线为尖峰分布;
其他相关统计量最大值、最小值、极值,这里就不谈了,主要说一下Z标准化得分,Z标准化得分是以标准差为单位测量数据与平均数之间的距离。计算公式如下
为了这个公式Z标准得分。Z标准化数据越大,离平均值越远。标准化值的好处不仅可以显示一组数据分布中每个原始数据的相对位置,还可以比较不同分布的每组原始数据,还可以接受代数方法的处理。因此,标准化值在统计中起着非常重要的作用。
《医学统计《医学统计学》
《卫生统计学方积乾主编加法》
《SPSS清华出版社加法统计分析从入门到精通
陈希孺的概率论与数理统计
浙江大学毕业证书出版社发现了23585137个原始描述样本的统计设计图片,包括统计图片、材料、海报、证书背景和源文件PSD、PNG、JPG、AI、CDR等格式素材!
毕业证样本网创作《描述样本的统计量(描述性分析基本统计量介绍)》发布不易,请尊重! 转转请注明出处:https://www.czyyhgd.com/183925.html