样本容量是否有规定?样本容量越多越好?
你首先需要理解PCA在做什么。
写成式子是:什么叫样本容量举例
举个直观的例子,如下图所示:样本容量的例子是什么?
假设三维空间中有许多点,每个点都用三个维度来表示。但你会发现它们几乎都在同一个二维平面上。虽然它不是完全在一个平面上,但它比它们在这个平面上的相互距离要小得多。所以你认为,如果你把所有的点都投射到这个二维平面上,你可以用两个维度来表示所有的点,而不会失去太多关于这些点的信息。当你这样做的时候,你样做PCA了。
具体如何找到这个平面,在概念上,你首先找到数据点分布最广泛的方向(上面的绿色箭头),然后的绿色箭头),然后找到另一个方差最大的方向(上面的蓝色箭头)。由两个方向组成的平面是你想要找到的平面。数学通常通过协方差矩阵对角化或SVD来实现的。
以三维空间为例,解释为什么样本数量非常重要。
因为样本容量太小,你很容易得到一组数据,它们偶然接近同一平面。在极端情况下,如果你只有三个数据点,它们总是可以形成一个二维平面,你甚至不需要近似这个词。
回到主题的问题。为什么在样本量增加到25之后,前三个是一样的?PC只能解释62%的方差?
因为你之前的15个样本点巧合地落在七维空间中的同一个三维超平面附近。当样本量增加到25时,这个巧合就不成立了。所以也有三个PC,在这种情况下,只能解释62%的方差。
就像在上图中一样,我认为在二维平面上投射数据点可以保持大部分方差,但当我收集大量数据时,我发现许多点并没有落在这个平面附近,而是远离它。巧合的是,数据太少了。这样,为了不损失太多关于这些数据点的信息,我只能使用三个维度来记录数据。
样本容量越大越好,只要不超过计算能力的限制。
主要成分分析主要研究随机向量协方差矩阵。在样本有限的情况下,理论上的协方差矩阵只能被矩阵的经验所取代:什么是样本容量
样本容量N估计越大,估计越准确。更准确地说,从中心极限定理可以看出,这种估计误差
样本越大,方差越小意味着估计一个参数,比如获得估计量。(estimator)方差本身(是随机变量)往往随着变大而趋于零。这个时候这个时候estimator被称为是consistent是的。在大多数情况下,统计学只会进行研究consistent的estimator。在PCA例如,我们想要估计的参数是协方差矩阵;随着样本容量的增加,我们的估计
我们将越来越接近真实值,而不是零。estimator它本身的方差
毕业证样本网创作《样本容量的例子是什么(在主成分析方法中,是否对样本容量有规定)》发布不易,请尊重! 转转请注明出处:https://www.czyyhgd.com/180135.html