必要的样本容量概念(初级数据分析(1)-理解统计)

摘要:

本文介绍了初级数据分析的学习和理解过程,重点阐述了统计学在日常生活和工作中的广泛应用。文章通过描述统计学的四个主要指标(平均值、四分位数、标准差和标准分)和两种重要概念(大数定律和中心极限定理)来阐述描述性统计和推断统计的基本概念。结合实际应用场景,文章详细解释了这些概念的应用方法和作用。此外,文章还介绍了数据分析的步骤和使用的数据集,提出了针对婴儿用品购买行为的数据分析业务问题,并解释了将如何使用统计学知识来解决这些问题。最后,文章以新疆的赛里木湖为背景,展示了统计学在实际生活中的美丽应用,并呼吁人们重视统计学的价值。文章旨在让读者了解统计学在数据分析中的作用和价值,以及如何应用统计学知识解决实际问题。同时,文章提供了必要的样本容量概念设计图片素材,方便读者获取相关资源。

初级数据分析(1)-理解统计学

欢迎见证我的成长~

必要的样本容量概念(初级数据分析(1)-理解统计)

一般来说,学习统计可以让我们更科学地理解生活中的现象,根据数据或科学的数据分析,使我们的结果更可信,帮助改善生活。

我从高中毕业证书开始接触统计学,大学毕业证书也学习了相关课程,但当时我一直保持着处理考试的目的,总是有自己不擅长数学的概念,导致我忘记了学习,对统计学的作用和意义没有深刻的理解。我确实每天都在看到和使用统计知识,如平均数、最大值、最小值、数量、相信范围、概率和正态分布(特别是常见的28原则),但很少与统计知识联系起来。总是把统计学作为洪水野兽的重要组成部分,感觉离我很远。我认为我首先需要打破这种无用的统计观点,以便更好地接受和学习他。

打破这一观点后,我开始观察和认识到我周围的统计学。结合纪录片《统计的乐趣》,我发现在我们的生活中,我们经常根据看到某个行业的平均工资和中位数来判断整个行业是否是高薪行业;我们可以利用成功的概率和期望来判断我们是否想做某件事,以及购买某件事的预期收入;我从小就学习排名。那些年级前1%和20%的数据也是统计知识的体现;即使是我们在购物中心和超市购买商品时看到的折扣,最受欢迎的商品也是统计的实际应用。它渗透到我们生活的各个方面。特别是最近,随着互联网的兴起,我们每天都在生产越来越多的数据。数据分析师的职位也应运而生。对于这个职位,我们需要了解统计知识,把复杂的数据变成宝藏,这也是我学习的目的。

一般来说,统计分析可分为描述性统计(descriptivestatistics)和推断统计(inferentialstatistics)。描述性统计是通过一个简单或多个简化的单一指标来描述大量的数据,以便我们能够发现问题并更好地利用数据。简而言之,它是用一些指标来描述整体情况,推断统计是用样本数据来推断整体特征。

对于描述性统计,最常用的四个指标是:统计中必要的样本容量概念

平均值、四分位数、标准差和标准分。

l平均值:统计学中必要的样本容量概念

这个指标是我们日常生活中接触最多的指标,它是从所有数据的总和除以数据的数量中获得的。计算简单,应用广泛,但对异常值不敏感,不准确。当数据中有异常值时,平均值会过高或过低,用平均值描述整体情况是不准确的。例如,在计算几个人的平均工资时,如果加上马云和马化腾的工资,整体平均工资就会增加,计算结果并不意味着整体工资。

l四分位数:统计学中必要的样本容量概念

四分位数可以很好地解决平均值异常值不敏感的问题。它由五个要素组成:下边界(最小值)、下四分位数(25%)、中位数(50%)、上四分位数(75%)和上边界(最大值)。它可以从整体上描述数据集的分布状态,并通过箱线图直观地显示。

四分位数有两种常见的应用:

1、比较数据的整体情况。如下图所示,通过箱线图,我们可以了解不同城市数据分析师的整体薪酬分布和不同经验的整体薪酬分布。

2、四分位数也可以识别可能的异常值。我们可以计算最大估计值和最小估计值。如果数据大于最大估计值,小于最小估计值,则可以判断数据为异常值。

计算最大估计值和最小估计值的方法:

当K=1.5中度异常

当K=3极度异常

转换成箱线图时,如下图所示:

l标准差:虽然四分位数总体上告诉了我们数据的分布,但它不能告诉我们数据的波动大小。此时,标准差可以告诉数据的波动大小,即稳定性。在日常生活中,我们还会看到离散程度、变异性等表示,它们是同一情况的不同名称,都表示数据的波动大小。标准差是方差的方根,计算公式如下:

在理解标准差的过程中,我们需要理解两个问题:

1、什么是标准差的单位?

标准差的单位与原始数据相同。若原始数据表示身高厘米,则其标准差的单位也为身高厘米。

2、标准差是大一点好还是小一点好?

这取决于你要求的数据。如果是生产零件,那么我们希望标准更差,这样生产质量更高,稳定性更好。但如果是大公司的工资,我们希望它更大,因为有很多高管,这是公平的。

标准差异可以表示数据的整体波动,但它有一个缺点:如果两个数据之间存在很大差异,则无法进行比较。例如,当标准差异为20万时,A销售1000万,B当销售100万时,不能说两家商店的销售波动相同,因为20万是100万的1/5,是1000万的1/50。如何避免标准差的缺点?如果可以将标准差除以数据集的平均值,则可以消除数据大小的差异。标准差除以平均值获得的值称为变异系数。因此,我们通常使用变异系数来比较不同数据集的波动大小。

l标准分:又称标准化值,Z值。它表示平均距离的标准差。通常我们用它来假设测试,看看测试值是否在我们预设的标准范围内,如果是,测试是否不合格。其计算公式如下:

我们通常使用样本数据来推断推断统计。因为在现实生活中,由于时间和金钱成本有限,我们只能获得一些样本数据。如何从这些有限的数据资源中反映整体情况需要推断统计。其中,大数定律(lawoflargenumber)和中心极限定理(centrallimittheory)这是两个非常重要的概念。简言之,大数定律与样本容量相匹配n随着样本平均值的增加,样本平均值将接近整体平均值。当样本容量时,中心极限定理是n当样本平均值大于30时,将收敛于正态分布。

在数据分析之前,我们首先要做的是提出问题,明确我们想要分析的问题是什么;其次,我们应该了解数据、来源、每个字段的含义以及整个业务流程。这些准备工作是我们后续分析的基石。

为了使自己更熟悉电子商务业务,选择天猫淘宝购买婴儿产品的用户数据集作为数据分析的数据源。

阿里巴巴天池

这个数据集中包含两个excel表:

表1是购买商品((sample)sam_tianchi_mum_baby_trade_history.csv),

表2为婴儿信息((sample)sam_tianchi_mum_baby.csv)

表1购买的商品共有7个字段和209660条记录。

字段含义:

l用户ID:每个用户ID它是独一无二的,重复表明同一用户有多个购买记录。

l商品编号:属于每种产品的特殊编号。

l商品一级分类:是商品的大分类。例如,奶瓶、奶嘴等都属于婴儿用品的大分类。

l商品二级分类:是商品类以下的小分类。例如,奶瓶奶嘴尿布是婴儿用品下的小分类。

l商品属性:如婴儿手推车的颜色和大小。

l采购数量:可统计各种销售情况,以及用户的采购情况。

l购买时间:交易发生时间,该表格为非日期格式,需将其转换为日期格式,方便日后统计。

婴儿信息表包含3个字段和2862个记录。

l用户ID,本表中的用户ID每一个都是唯一值ID代表一个用户,和表1出现的相等。

l出生日期:该表格为非日期格式,需将其转换为日期格式,方便日后统计。

l性别:0女性;1男性;2未知性别,可用于后期分类统计。

根据现有数据,我认为集中分析的业务数据如下:

1、哪类产品总销量最高,哪类产品总销量最低?

2、不同性别的购买偏好有区别吗?男婴、女婴和未知性别的婴儿购买最高产品和最低产品是什么?

3、在购买产品时,未知性别婴儿的比例和购买数量是多少?

4、不同年龄的婴儿,如1岁以下,1-3岁,3-66岁以上购买产品有什么区别?

5、不同季度对婴儿用品销量的影响?

针对上述问题,现有表格中的用户ID便于我匹配购买行为中的性别,购买日期和出生地日期方便于我对年龄进行分类,从而汇总不同年龄段的购买差异,产品编号和销售数量可以使我统计出哪一产品销量最高和最低,商品一级分类和二级分类便于我细化最高、最低销量的一级二级产品,商品属性可以让我知道最后欢迎的产品中哪个属性是卖的最好的,可以为后续的补货和促销手段提供数据支持,购买日期可以帮助我分析不同季度的销量等。

在我的问题研究中,我主要用来描述统计中的众数、最大值和最小值。

PS:弯曲的建筑,文章的背景图片是新疆的赛里木湖,也被称为大西洋的最后一滴眼泪,超级美丽,欢迎来到新疆旅游,哈哈哈。在原始统计学中找到35532212张必要的样本容量概念设计图片,包括必要的样本容量概念图片、材料、海报、证书背景和源文件PSD、PNG、JPG、AI、CDR等格式素材!

毕业证样本网创作《必要的样本容量概念(初级数据分析(1)-理解统计)》发布不易,请尊重! 转转请注明出处:https://www.czyyhgd.com/176685.html

(0)
上一篇 2022年4月30日
下一篇 2022年4月30日

相关推荐

  • 统计图的样本容量是什么(数学统计样本容量是什么意思)

    摘要:
    本文主要介绍了统计图中的直方图的作用和特点,包括显示质量波动状态、传递过程质量状况信息、掌握过程状态以确定质量改进方向等。文章详细阐述了频率分布直方图的定义、相关概念及制作直方图的步骤,如样本数量要求、组数选用、数据分组、频率计算、图形绘制等。此外,文章还介绍了统计图在公路工程质量管理中的应用,如估计不合格率、检查过程能力估算法等。最后,文章总结了数字特征在统计图中的重要作用,包括平均数、方差、众数、中位数、极差等,并指出了各种统计表的优缺点,如直方图可以清晰展示数据分布,便于记录和表达,但在样本容量大时图纸较为繁琐。文章的目的是通过观察直方图的形状来判断生产过程是否稳定,预测生产过程的质量,并提供了相应的应用步骤。

    2022年4月17日
    270
  • 西南政法大学毕业证书的图片是什么? 如何找到样本容量?

    摘要:文章介绍了计量经济学中的样本容量概念,解释了样本容量在样品调查中的重要性。文章提到了样本容量计算公式,并讨论了不同信心度下的样本容量决定因素。此外,文章还涉及西南政法大学毕业证书样本容量的合格率及样本平均分布的问题。文章强调了样本单位数量的确定对于确保样本指标具有充分代表性的重要性,并指出数量计算可能存在繁琐和出错的情况。

    2022年9月29日
    140
  • 好吗?西南政法大学文凭图片 计算样品容量

    摘要:西南政法大学自考学士学位申请条件包括政治思想道德素质好、取得法律专业本科文凭、通过学士学位外语水平考试、平均分数达到一定标准、毕业论文成绩优秀等。申请时限为获得毕业证书后三个月内,逾期不授予学位。申请手续包括填写申请表、提交相关证书复印件和支付工本费。每年申请两次,具体时间和地点为西南政法大学继续教育学院自学办公室。

    2022年9月15日
    160
  • 西南政法大学毕业证图 样本容量,西南政法大学毕业照

    本文探讨了西南政法大学毕业证图样本容量的相关分析,以及西南政法大学毕业照的相关信息。文章主要涵盖了三个方面:一、西南政法大学开设的警察专业的价值;二、西南政法大学本科毕业生的就业情况;三、疫情期间不能从事的违法行为。总体来说,西南政法大学的公安专业值得报考,毕业生就业质量不低。同时,文章也提醒读者,在疫情期间要遵守相关法律法规,不能从事违法犯罪行为。

    2022年8月16日
    150
  • 东北农业大学毕业证图 样本容量公式,东北农业大学毕业照

    本文介绍了东北农业大学毕业证样本容量公式的求解,详细解释了样本量的概念和计算公式,指出样本量是抽样调查中的重要因素之一。在抽样设计中需确定适当的样本单位数以保证样本指标的代表性。读者可以通过毕业证样本网提供的几个问题进行分析和讨论。

    2022年8月19日
    160
客服微信
客服微信
返回顶部