统计中的样本是什么:SCI论文中的描述性统计(descriptivestatistics)是什么?
《论语·为政第二》里有说“视其所以,观其所由,察其所安”,对于科学研究来说,就是需要通过实验或调查等手段获取数据,进行必要的统计分析,对科学研究进行数据画像。那么因此,SCI论文中的统计内容一般包括描述性统计分析。所谓描述性统计(descriptivestatistics)对即将到来的调查样本中包含的大量数据数据进行整理和计算,并对调查整体所有变量的相关数据进行统计总结。简单地说,用几个具有代表性的数据来描述一系列复杂的数据集,然后直观地解释数据的变化,主要包括离散程度分析、集中趋势分析、频率分析、分布和一些基本的统计图形。描述性统计是推断性统计的基础。
以下是SCI论文中包含描述性统计内容的一些实例:
在定量研究中,收集数据后,统计分析的第一步是描述样本数据的特征,如变量的平均值(如年龄)或两个变量之间的关系(如年龄和创造力)。下一步性统计的基础上,下一步的研究是推论性统计(Inferentialstatistics),用来帮助研究人员确定样本数据是否确认或反驳研究的假设,假设结论是否可以推广到更大的整体,并以概率的形式推断统计的未知数量特征。
描述性统计有三种主要方法:
1.频率分析与每个变量值的数量有关。
2.集中趋势分析,与变量数值的平均值有关。
3.离散程度分析与各个变量值的差异程度有关。
在单变量分析中,一次只能评估一个变量,或在双变量中比较两个变量之间的关系,或在多变量分析中比较多个变量之间的关系。
以下是描述性统计的三种方法。
例1:一个主题想根据性别研究不同业余时间休闲活动的流行程度。研究项目发布了一份问卷调查,并询问被调查人员在过去一年中做了以下每项休闲活动的次数,分别包括:
去图书馆读书,简称图书馆;在电影院看电影,简称电影院;参观国家公园,简称公园。
统计数据集是对调查结果的收集。通常,描述性统计可以用来确定每个活动的总频率(分布)、平均值(中心趋势)和离散程度(可变性)。
01频数分析(Frequencydistribution)
频数分布(frequencydistribution),也被称为次数分布,是数据的基本统计分类方法之一,即每个测量值的频率或频率可以用数字或百分比来总结。频率通常是指每个数据的次数,频率是指每个数据的次数与总次数的比率,是一个相对频率。
在SCI在论文中,常用两种图表来表达频数分布:简单频数分布表(Simplefrequencydistributiontable)分组频数分布表(Groupedfrequencydistributiontable)。
简单频数分布表:
对于实例1,根据性别变量在左栏列出所有可能的答案。计算每个答案的答案数量或百分比,并在相应的右列中显示。
Gender
Number
Woman
Noanswer
从上表可以得出结论:在本研究中,男性参与调查的人数较多。
分组频分布表:
对于实例1,在分组频率分布中,在分组频率分布中分组,每组的响应数可以加起来,每个数字也可以转换成百分比。
Libraryvisitsinthepastyear
Percent
13-16
从上表可以看出,过去一年大多数人去图书馆4到16次。
02集中趋势测量(MeasuresofCentralTendency)
集中趋势测量表明数据集的中心或平均值,能够对总体的某一特征具有代表性,表明所研究的舆论现象在一定时间、空间条件下的共同性质和一般水平。平均值(mean)、中位数(median)和众数(mode)是估计集中趋势测量的三种方法。
平均值是寻求平均值最常用的方法。这里的平均值是指算术平均值,即一组数据和除以这组数据的平均值。
如图书馆平均访问次数为{15、3、12、0、24、3},则平均为(15 3 12 0 24 3)/6=9.5
中位数是数据集中间的值。为了找到中位数,从最小到最大对每个数据值进行排序。然后,中间数是中间数。如果中间有两个数字,计算它们的平均值。对于数据集{15、3、12、0、24、3},中位数为(3 12)/2=7.5。当数据集中数据的大小趋势较大时,中位数比平均数更能代表整体水平,而数据大小趋势较小时,中位数和平均数可以代表这组数据的整体水平。
众数是指统计分布中具有明显集中趋势点的值,代表数据的一般水平。它也是一组数据中最常见的值,有时在一组数中有几个。对于数据集{0、3、3、12、15、24},最常见的数字是3。
1.差异量数(MeasuresofVariability)
差异量又称离中趋势量,是指描述一组数据离中差异和离散程度的量。差异量数有很多种,主要包括极差(Range,R)、标准差(Standarddeviation,σ)、方差(Variance,σ2)、四分位距(interquartilerange,IQR)。以下是前三种方法的简要介绍:
极差(Range),也称为范围误差或全距,用于表示样本数据中最大值与最小值之间的差距,即最大值减少最小值后获得的数据。
例如,去年参观图书馆的次数为有序数据集:{0、3、3、12、15、24},极差为:24–0=24。
标准差(Standarddeviation)它是数据的平均变异,主要描述数据的离散程度,符号为σ。它告诉你数据中的平均每个分数离平均值有多远。标准差越大,数据集的离散程度越大。例如,两组数的平均值为7,但第二组数的标准差较小。
计算标准差的步骤通常主要有三步:计算平均值、计算方差、计算标准差。例如,对于一个数据集{7、13、15、18、20、24、30、31},其标准差可通过以下步骤计算:
1)计算平均值:
2)计算方差:
3)计算标准差:
方差(variance)它是每个样本值与所有样本值之间平均差的平方值的平均值,也用来描述数据的离散程度,实际上是标准差的平方,符号是σ2。在统计史上,方差早于标准差,但由于统计学家发现方差和样本值不在同一数量级(因为它们来自平方),因此不便于比较样本值和偏差之间的关系。后来,为了确保计算偏差值与实际样本值的单位统一(该值与实际值的单位为平方关系),统计人员建议再次打开该值,以确保其与样本值相同。
以上数据集{7、13、15、18、20、24、30、31}为例:
描述性统计可分为单变量描述性统计、双变量描述性统计和多变量描述性统计。
所谓单变量描述统计,就是每次只关注一个变量数据。以下是单变量描述性统计的集中趋势度的一个例子。检查每个变量的数据是非常重要的。SPSS和Excel这样的软件工具或自己编写Python、R数据集的差异(离散)评价值可以很容易地计算小程序。
例1采用一年内访问图书馆次数的数据集{3、3、8、7、14、18、20、25、22、15、9、5、20、31}
Smalltips:在统计分析数据时,如果研究人员只考虑平均值作为中心趋势的衡量标准,那么数据集的中心可能会被异常值扭曲,这与中位数或众数不同,如研究团队的张三和李四月薪3K,王五月薪100W所以这个研究团队的平均月薪是33万。
同样,尽管极差(全距)对极值非常敏感,但也应考虑标准差和方差,以获得更准确的差异(离散)测量。
在收集不止一个变量的数据时,双描述统计和多描述统计可以使用双描述统计来探索它们之间的关系。
同时研究两个变量的频率和变异性,看它们是否同时变化。这两个变量的中心趋势也可以在进一步统计测试前进行比较。多元分析与二元分析相同,但有两个以上的变量。
列联表是双重描述性统计描述的重要工具(ContingencyTable)。列联表也被称为条件时间表和情况分析表,它由两种不同的方法分析一组数据的行和列组成。在列联表中,每个单元格表示两个变量的交集。通常,由于变量(如性别)沿纵轴出现,自变量(如性别)沿横轴出现(如活动)。在阅读表格时,您可以观察自变量和因变量是如何相互关联的。例如,在过去的一年里,图书馆的访问次数是根据性别进行统计的。
Numberofvisitstothelibrary
inthepastyear
Group
13–16
Women
Smalltips:当原始数据的数值转换为百分比时,SCI论文读者更容易理解列联表。百分比使每行看起来像100名观察者或被调查者,使每行与另一行具有可比性。在创建基于百分比的列联表时,在最后为每个变量添加一列作为样本总量N。
Visitstothelibraryinthepastyear
(Percentages)
从上表可以更清楚地看出,喜欢泡图书馆的男女每年都要去图书馆17次以上。此外,男性通常去图书馆5到8次,而女性去图书馆13到16次。
散点图是双元和多元数据统计描述的重要工具(Scatterplots)。散点图是用来表达两个或三个变量之间关系的图表。这是关系强度的视觉表现。
沿散点图x轴绘制变量,沿y轴绘制另一个变量。图表中的一个点表示每个数据点。
下面是一个散点图的例子。例1中,参观图书馆和电影院的描述统计需要了解经常去图书馆的人是否更喜欢去电影院看电影。散点图可以设计为沿线x轴是电影院看电影的次数。y轴是访问图书馆的次数。
从散点图可以看出,随着电影院电影数量的减少,图书馆的访问量也在增加。研究人员可以根据对可能线性关系的可视化和直观评估,进一步分析和测试数据的相关性。
良好的统计方法是写作SCI论文的利器!万历年间最迟写的《增广贤文》有言:画龙画虎难画骨..这句话突出了通过现象很难理解本质,所以SCI论文中的描述性统计部分往往会降低这种难度。
作者简介:晨星,湖北武汉人,副高职称,理学博士,高级程序员,IAMG(国际数学地球科学协会)会员,省级医学人工智能与大数据委员会会员、部级行业智库专项研究员。
毕业证样本网创作《统计中的样本是什么(所说)》发布不易,请尊重! 转转请注明出处:https://www.czyyhgd.com/161126.html