你对统计学的五个基本概念了解多少?
大数据分析、电子商务、网站运营
本文介绍了数据分析师应该理解的五个基本统计概念:统计中样本的定义
统计特征、概率分布、降维、过采样/欠采样、贝叶斯统计方法。从高度来看,统计学是一种利用数学理论进行数据分析的技术。基本的可视化形式,如柱状图,会给你更全面的信息。然而,通过统计,我们可以以更有信息驱动力和针对性的方式操作数据。所涉及的数学理论帮助我们形成数据的具体结论,而不仅仅是猜测。通过统计学,我们可以更深入、更详细地观察数据是如何准确组织的,以及如何以最佳形式应用其他相关技术以获取更多信息。今天,让我们来看看数据分析师需要掌握的五个基本统计概念,以及如何有效地应用它们。特征统计可能是数据科学中最常用的统计概念。它是您在研究数据集时经常使用的统计技术,包括偏差、方差、平均值、中位数、百分数等。在代码中很容易理解特征统计。请参见下图:统计中样本的定义
在上图中,中间的直线表示数据的中位数。中位数用于平均值,因为它对异常值更具鲁棒性。第一个四分位数本质上是第二十五百分位数,即数据中的25%低于该值。第三个四分位数5百分位数,即数据中的75%低于该值。最大值和最小值表示数据范围的上下两端。箱形图很好地说明了基本统计特征的作用:
当箱图很短时,这意味着许多数据点是相似的,因为许多值分布在一个很小的范围内;当箱图较高时,这意味着大多数数据点之间存在很大的差异,因为这些值分布广泛;如果中位数接近底部,则大多数数据具有较低的值。如果中位数接近顶部,则大多数数据具有较高的值。基本上,如果中位线不在框架的中间,则表示偏差数据;如果框架上下两侧的长线表示数据具有较高的标准偏差和方差,则表示该值分散且变化很大。如果框架一侧有长线,另一侧不长,则数据可能只在一个方向上发生变化。我们可以将概率定义为某些事件的可能性,以百分比表示。在数据科学领域,这通常量化到0到1的范围内,0意味着事件不会发生,1意味着事件将发生。然后,概率分布是表示所有可能值的概率的函数。请参见下图:统计中样本的定义
常见概率分布、均匀分布(上)、正态分布(中间)、泊松分布(下):
均匀分布是最基本的概率分布模式之一。它有一个只出现在一定范围内的值,而在此范围之外的值为0。我们也可以考虑它是一个具有两个分类的变量:0或另一个值。分类变量可能有除0以外的多个值,但我们仍然可以将其视为多个均匀分布的分段函数。正态分布,通常被称为高斯分布,由其平均值和标准偏差来定义。平均值在空间上来回分布,标准偏差控制其分布和扩散范围。与其他分布模式的主要区别在于,标准偏差在所有方向上都是相同的。因此,通过高斯分布,我们知道数据集的平均值和数据的扩散分布,即它在相对较广的范围内扩展,或者主要集中在几个值附近。泊松分布类似于正态分布,但有偏差。就像正态分布一样,泊松分布在各个方向上都有相对均匀的扩散。然而,当偏差值非常大时,我们的数据在不同方向的扩散将会有所不同。在一个方向上,数据的扩散程度非常高,而在另一个方向上,扩散程度非常低。如果我们遇到一个高斯分布,那么我们知道有很多算法,默认情况下,高思分布将得到很好的执行,所以我们应该首先找到这些算法。如果是泊松分布,我们必须特别小心,选择一个在空间扩展方面有良好变化的算法。这个术语可以直观地理解,可以直观地理解,这意味着降低数据集的维度在数据科学中,这是特征变量的数量。请参见下图:
上图中的立方体显示了我们的数据集,它有三个维度,共1000点。根据目前的计算能力,计算1000个点很容易,但如果规模更大,就会遇到麻烦。然而,仅仅从二维的角度来看,例如,从立方体侧的角度来看,很容易划分所有的颜色。通过降低维度,我们将3D数据展现到2D平面上,这有效地把我们需要计算的点的数量减少到100个,大大节省了计算量。另一种方式是我们可以通过特征剪枝来减少维数。利用这种方法,我们删除任何所看到的特征对分析都不重要。例如,在研究了数据集之后,我们可能会发现,在10个特征中,有7个与输出高度相关,而其他3个则相关性很低。然后,这三个低相关性的特征可能不值得计算,我们可能只能在不影响输出的情况下从分析中删除它们。最常见的降维统计技术是PCA,它本质上创造了特征的向量表示,表明它们对输出的重要性,即相关性。PCA可用于上述两种降维方法的操作。过采样、欠采样和欠采样是用于分类问题的技术。例如,我们有2000个样本,但第二个样本只有200个样本。这将抛开我们尝试和使用的许多机器学习技术来建模和预测数据。然后,过采样和欠采样可以应对这种情况。请参见下图:
在上图的左右两侧,蓝色分类比橙色分类有更多的样本。在这种情况下,我们有两个预处理选择,可以帮助机器学习模型进行培训。不采样意味着我们只会从样本多的分类中选择一些数据,尽可能多地使用样本少的分类样本。这个选择应该是为了保持分类的概率分布。我们只是通过更少的抽样来使数据集更加平衡。过采样意味着我们将创建一个与大多数分类相同的样本数量的少数分类副本。副本将制作成保持少数分类的分布。我们只是在没有更多数据的情况下使数据集更加平衡。贝叶斯统计完全理解为什么当我们使用贝叶斯统计时,我们需要首先理解频率统计失败。当大多数人听到概率这个词时,频率统计是首先想到的统计类型。它涉及到应用一些数学理论来分析事件的可能性很明显,我们唯一计算的数据是先验数据(priordata)。
假设我给了你一个骰子,问你扔6点的机会是多少,大多数人会说它是六分之一。但是,如果有人给你一个特定的骰子,你总能扔6点呢?因为频率分析只考虑以前的数据,而作弊的骰子因素并没有被考虑在内。贝叶斯统计确实考虑到了这一点,我们可以解释:找到85236248个原始统计样本的定义设计图片,包括样本定义图片、材料、海报、证书背景、源文件,包括PSD、PNG、JPG、AI、CDR等格式素材!
毕业证样本网创作《样本在统计学中的定义(你对统计学中的五个基本概念了解多少?》发布不易,请尊重! 转转请注明出处:https://www.czyyhgd.com/184263.html