初级数据分析(1)-理解统计学
欢迎见证我的成长~
一般来说,学习统计可以让我们更科学地理解生活中的现象,根据数据或科学的数据分析,使我们的结果更可信,帮助改善生活。
我从高中毕业证书开始接触统计学,大学毕业证书也学习了相关课程,但当时我一直保持着处理考试的目的,总是有自己不擅长数学的概念,导致我忘记了学习,对统计学的作用和意义没有深刻的理解。我确实每天都在看到和使用统计知识,如平均数、最大值、最小值、数量、相信范围、概率和正态分布(特别是常见的28原则),但很少与统计知识联系起来。总是把统计学作为洪水野兽的重要组成部分,感觉离我很远。我认为我首先需要打破这种无用的统计观点,以便更好地接受和学习他。
打破这一观点后,我开始观察和认识到我周围的统计学。结合纪录片《统计的乐趣》,我发现在我们的生活中,我们经常根据看到某个行业的平均工资和中位数来判断整个行业是否是高薪行业;我们可以利用成功的概率和期望来判断我们是否想做某件事,以及购买某件事的预期收入;我从小就学习排名。那些年级前1%和20%的数据也是统计知识的体现;即使是我们在购物中心和超市购买商品时看到的折扣,最受欢迎的商品也是统计的实际应用。它渗透到我们生活的各个方面。特别是最近,随着互联网的兴起,我们每天都在生产越来越多的数据。数据分析师的职位也应运而生。对于这个职位,我们需要了解统计知识,把复杂的数据变成宝藏,这也是我学习的目的。
一般来说,统计分析可分为描述性统计(descriptivestatistics)和推断统计(inferentialstatistics)。描述性统计是通过一个简单或多个简化的单一指标来描述大量的数据,以便我们能够发现问题并更好地利用数据。简而言之,它是用一些指标来描述整体情况,推断统计是用样本数据来推断整体特征。
对于描述性统计,最常用的四个指标是:统计中必要的样本容量概念
平均值、四分位数、标准差和标准分。
l平均值:统计学中必要的样本容量概念
这个指标是我们日常生活中接触最多的指标,它是从所有数据的总和除以数据的数量中获得的。计算简单,应用广泛,但对异常值不敏感,不准确。当数据中有异常值时,平均值会过高或过低,用平均值描述整体情况是不准确的。例如,在计算几个人的平均工资时,如果加上马云和马化腾的工资,整体平均工资就会增加,计算结果并不意味着整体工资。
l四分位数:统计学中必要的样本容量概念
四分位数可以很好地解决平均值异常值不敏感的问题。它由五个要素组成:下边界(最小值)、下四分位数(25%)、中位数(50%)、上四分位数(75%)和上边界(最大值)。它可以从整体上描述数据集的分布状态,并通过箱线图直观地显示。
四分位数有两种常见的应用:
1、比较数据的整体情况。如下图所示,通过箱线图,我们可以了解不同城市数据分析师的整体薪酬分布和不同经验的整体薪酬分布。
2、四分位数也可以识别可能的异常值。我们可以计算最大估计值和最小估计值。如果数据大于最大估计值,小于最小估计值,则可以判断数据为异常值。
计算最大估计值和最小估计值的方法:
当K=1.5中度异常
当K=3极度异常
转换成箱线图时,如下图所示:
l标准差:虽然四分位数总体上告诉了我们数据的分布,但它不能告诉我们数据的波动大小。此时,标准差可以告诉数据的波动大小,即稳定性。在日常生活中,我们还会看到离散程度、变异性等表示,它们是同一情况的不同名称,都表示数据的波动大小。标准差是方差的方根,计算公式如下:
在理解标准差的过程中,我们需要理解两个问题:
1、什么是标准差的单位?
标准差的单位与原始数据相同。若原始数据表示身高厘米,则其标准差的单位也为身高厘米。
2、标准差是大一点好还是小一点好?
这取决于你要求的数据。如果是生产零件,那么我们希望标准更差,这样生产质量更高,稳定性更好。但如果是大公司的工资,我们希望它更大,因为有很多高管,这是公平的。
标准差异可以表示数据的整体波动,但它有一个缺点:如果两个数据之间存在很大差异,则无法进行比较。例如,当标准差异为20万时,A销售1000万,B当销售100万时,不能说两家商店的销售波动相同,因为20万是100万的1/5,是1000万的1/50。如何避免标准差的缺点?如果可以将标准差除以数据集的平均值,则可以消除数据大小的差异。标准差除以平均值获得的值称为变异系数。因此,我们通常使用变异系数来比较不同数据集的波动大小。
l标准分:又称标准化值,Z值。它表示平均距离的标准差。通常我们用它来假设测试,看看测试值是否在我们预设的标准范围内,如果是,测试是否不合格。其计算公式如下:
我们通常使用样本数据来推断推断统计。因为在现实生活中,由于时间和金钱成本有限,我们只能获得一些样本数据。如何从这些有限的数据资源中反映整体情况需要推断统计。其中,大数定律(lawoflargenumber)和中心极限定理(centrallimittheory)这是两个非常重要的概念。简言之,大数定律与样本容量相匹配n随着样本平均值的增加,样本平均值将接近整体平均值。当样本容量时,中心极限定理是n当样本平均值大于30时,将收敛于正态分布。
在数据分析之前,我们首先要做的是提出问题,明确我们想要分析的问题是什么;其次,我们应该了解数据、来源、每个字段的含义以及整个业务流程。这些准备工作是我们后续分析的基石。
为了使自己更熟悉电子商务业务,选择天猫淘宝购买婴儿产品的用户数据集作为数据分析的数据源。
阿里巴巴天池
这个数据集中包含两个excel表:
表1是购买商品((sample)sam_tianchi_mum_baby_trade_history.csv),
表2为婴儿信息((sample)sam_tianchi_mum_baby.csv)
表1购买的商品共有7个字段和209660条记录。
字段含义:
l用户ID:每个用户ID它是独一无二的,重复表明同一用户有多个购买记录。
l商品编号:属于每种产品的特殊编号。
l商品一级分类:是商品的大分类。例如,奶瓶、奶嘴等都属于婴儿用品的大分类。
l商品二级分类:是商品类以下的小分类。例如,奶瓶奶嘴尿布是婴儿用品下的小分类。
l商品属性:如婴儿手推车的颜色和大小。
l采购数量:可统计各种销售情况,以及用户的采购情况。
l购买时间:交易发生时间,该表格为非日期格式,需将其转换为日期格式,方便日后统计。
婴儿信息表包含3个字段和2862个记录。
l用户ID,本表中的用户ID每一个都是唯一值ID代表一个用户,和表1出现的相等。
l出生日期:该表格为非日期格式,需将其转换为日期格式,方便日后统计。
l性别:0女性;1男性;2未知性别,可用于后期分类统计。
根据现有数据,我认为集中分析的业务数据如下:
1、哪类产品总销量最高,哪类产品总销量最低?
2、不同性别的购买偏好有区别吗?男婴、女婴和未知性别的婴儿购买最高产品和最低产品是什么?
3、在购买产品时,未知性别婴儿的比例和购买数量是多少?
4、不同年龄的婴儿,如1岁以下,1-3岁,3-66岁以上购买产品有什么区别?
5、不同季度对婴儿用品销量的影响?
针对上述问题,现有表格中的用户ID便于我匹配购买行为中的性别,购买日期和出生地日期方便于我对年龄进行分类,从而汇总不同年龄段的购买差异,产品编号和销售数量可以使我统计出哪一产品销量最高和最低,商品一级分类和二级分类便于我细化最高、最低销量的一级二级产品,商品属性可以让我知道最后欢迎的产品中哪个属性是卖的最好的,可以为后续的补货和促销手段提供数据支持,购买日期可以帮助我分析不同季度的销量等。
在我的问题研究中,我主要用来描述统计中的众数、最大值和最小值。
PS:弯曲的建筑,文章的背景图片是新疆的赛里木湖,也被称为大西洋的最后一滴眼泪,超级美丽,欢迎来到新疆旅游,哈哈哈。在原始统计学中找到35532212张必要的样本容量概念设计图片,包括必要的样本容量概念图片、材料、海报、证书背景和源文件PSD、PNG、JPG、AI、CDR等格式素材!
毕业证样本网创作《必要的样本容量概念(初级数据分析(1)-理解统计)》发布不易,请尊重! 转转请注明出处:https://www.czyyhgd.com/176685.html