数据分析|总参数估计(附代码)
本文仅作为知识的搬运工。本文目录:样本统计和总参数
点估计:样本统计和总参数
大似然估计,最小二乘估计,贝叶斯估计。区间估计:样本统计和总参数
正态整体和方差已知,或非正态整体、大样本、方差未知;正态整体、方差未知、小样本;总比例范围估计;大样本不重复抽样估计;总方差范围估计;样本量确定:估计总平均值时,样本量确定参数包括点估计和区间估计。
点估计(pointestimate)以样本统计的取值直接作为总参数的估计值。例如,样本的平均值x直接作为总体均值μ样本方差的估计值s2直接作为整体方差σ2估计值。点估计方法有:矩估计法、顺序统计法、最大似然法、最小二乘法、贝叶斯估计法。
本文主要介绍了最大的估计,最小的二乘估计,贝叶斯估计。最小二乘法是一种数学优化技术,它通过最小误差的平方和数据的最佳匹配。
让我们理解最小二乘回归的本质:
我们得到n组观测值,但真实值只有一个,该怎么办?首先想到的是取n组观测值的平均值作为真实值可靠吗?有人(勒让德)提出了最小二乘的想法:
所以,我们是对的y求导
巧合的是,算术平均差最小!
接下来,扩大最小二乘:
假设这条直线的方程是:
然后用最小二乘回归的思路:
然后对a,b偏差平方和的最小值:
一次函数,二次函数都是线性函数!可以解线性方程组!
以上操作都是假设。这时,勤学爱问的高斯站了起来:
他用另一套思路来回答这个问题!
勒让德用误差平方和最小化直线:
这个微分方程现在可以理解了。最后得到:
这不是我们的正态分布密度函数吗!
而且这还是充要条件:
也就是说,如果误差项服从正态分布,最小二乘估计是完美的!
误差项服从正态分布吗?若误差项是随机产生的,则根据中心极限定律,误差分布服从正态分布!
因此,尽管勒让德提出了最小二乘的想法,但高斯和高斯的努力确实确立了最小二乘的重要地位。
估计学术上使用最小二乘一般遵循这一点:
最小二乘估计前提:随机误差项满足正态分布!最小二乘估计一般用于在线回归估计参数值(最小二乘估计需要对参数进行偏差导数,因此误差函数需要连续导向!也就是说,误差函数需要凸函数)。一般来说,这是最有可能(最大概率)导致这些样本结果的模型参数值!
在介绍大似然估计之前,首先要了解这样一组概念:
对此函数:
两种输入:x表示具体数据;θ表示模型的参数。
如果θ已知确定,x这个函数被称为概率函数(probabilityfunction),它描述了不同样本点的描述x,它的概率是多少?
如果x已知确定,θ这个函数被称为似乎函数(likelihoodfunction),它描述对于不同的模型参数,出现x这个样本点的概率是多少?(密度函数也叫似然函数)
一句话总结:概率函数和似然函数是一个面团的两块馒头。
估计提供了一种给定的观察数据来评估模型参数的方法,即模型已确定,参数未知。
很明显,采样需要满足一个重要的假设,即所有采样都是独立分布的。
接下来,通过一个例子来理解大似然估计的用途:
假设我们想统计全国人民的年均收入,首先假设收入服从正态分布,但平均分布和方差尚不清楚。我们没有人力物力来统计全国每个人的收入。我们国家有超过10亿人口吗?那么,难道没有办法吗?不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,然后通过最大的似然估计获得上述假设中的正态分布参数。结论:然后我们知道,大似然估计的核心关键是在某些情况下,样本太多,无法获得分布的参数值。在采集小样本后,我们可以使用大似然估计来获得假设中分布的参数值。
在统计学习方法中的应用似乎很大:
logistic回归中求参数w前提数学家托马斯知道概率密度函数贝叶斯的原理·贝叶斯提出。贝叶斯是一个非常神奇的人,他的经历类似于梵高。他死前没有受到重视。死后,他写的一篇关于归纳推理的论文被朋友翻了出来,发表了。这个出版没关系。因此,这篇论文的思想直接影响了未来两个多世纪的统计学。它是科学史上著名的论文之一。
贝叶斯写了一篇文章来解决一个叫做逆向概率的问题,**如何在没有太多可靠证据的情况下做出更符合数学逻辑的推测?**
什么是逆向概率?
所谓的反向概率是相对于正向概率。正向概率的问题很容易理解。例如,我们已经知道袋子里有N个球,不是黑球就是白球,其中M一个是黑球,把手伸进去摸一个球,就能知道摸黑球的概率。**但这种情况往往是上帝的视角,即在做出判断之前,了解事物的全貌。
袋子里有10个球,其中6个黑球,4个白球;那么随机抓黑球的概率是0.6!在现实生活中,我们很难知道事情的全貌。贝叶斯从现实中提出了一个问题:**如果我们事先不知道袋子里黑球和白球的比例,我们能通过球的颜色来判断袋子里黑白球的比例吗?
正是这个问题影响了未来200年的统计理论。
这是因为贝叶斯的原理与其他统计推断方法完全不同。它是基于主观判断:当我们不了解所有客观事实时,我们也可以先估计一个值,然后根据实际结果进行修正。
一个例子:
假设有一种叫做贝叶死的疾病,它的发病率是万分之一,现有的测试可以测试一个人是否生病的准确性99.9其误报率为%0.1%,所以现在的问题是,如果一个人被发现患有叶贝死,实际上有多大的可能性?A表示事件测出为阳性B1说贝叶死,B2说没有贝叶死。
>当贝叶死亡时,阳性的概率被测定为P(A|B1)=99.9%,没有贝叶死亡,但阳性的概率是P(A|B2)=0.1%。>解读万分之一:。贝叶死亡的概率是P(B1)=0.01%,没有贝叶死亡的概率。P(B2)=99.99%。贝叶斯估计在《统计学习方法》中的应用:
简单贝叶斯模型
不同之处在于:参数;如果未知参数是固定值,那么它是非常明显的估计;如果未知参数遵循一定的概率分布,那么它就是贝叶斯估计!贝叶斯估计的前提是:每个样本都是独立的!这是一个强烈的假设!当先验概率可以确保问题得到解决时,最大的显然估计与贝叶斯估计的训练样本接近无限的结果相同!但在实际的模式识别问题中,训练样本总是有限的。我们应该如何选择使用哪种模型?下面简单分析分析:
就实现的复杂性而言,它必须是有限的选择,最大的似然估计,最大的似然估计只需要使用一个简单的微点计算,而在贝叶斯估计需要使用一个非常复杂的多点,不仅如此,贝叶斯估计相对更难理解;
当样本数据有限时,贝叶斯估计误差较小。毕竟,理论上,贝叶斯估计有很强的理论和算法基础。
在正式解释之前,首先要理解一组概念:信心和信心范围---它包含了样本估计的总体思很容易将95%理解为在此范围内包含真实值95%的概率。
95在%的信心度下,信心范围会发生变化(信心范围是随机范围,会因样本不同而发生变化,并非所有范围都包含整体范围。
事实上,95%是置信度,样本数量不变,做100次试验,95个置信区间包含整体真值。信心度为95%;
虚线是我们想要估计的值,水平线段是我们的信心范围;因为100个信心范围中有95个信心范围包括真实值,所以当我们只做一个信心范围时,我们也认为这个范围是可信的,包整体参数的真实值。
信心范围与信心范围的关系:当样本量给定时,信心范围的宽度随着信心水平的增加而增加;当信心水平固定时,信心范围的宽度随样本量的增加而减小,即大样本提供的整体信息较小。估计范围(intervalestimate)它是在点估计的基础上给出总参数估计的范围,通常通过样本统计的加减估计误差得到。与点估计不同,根据样本统计的抽样分布,可以对样本统计与总参数的接近度进行概率测量。
在点估计的基础上,给出总参数估计的范围,并指出总参数落在这个范围内的概率!例如,根据样本结果,年级的平均分是75-85之间,全年级平均分落在这个范围内的概率是95%,这就是范围估计!我们想知道一个年级的平均分,把80个班级的平均分作为整个年级的平均分,这就是点估计!在范围估计中,样本统计构建的总参数的估计范围称为可信范围(confidenceinterval),区间的最小值称为置信下限,最大值称为置信上限。
如果构建置信区间的步骤重复多次,则置信区间中包含总参数真实值的比例称为置信水平(confidencelevel),也称为置信度或置信系数(confidencecoefficient)。
正态总体和方差已知,或非正态总体和大样本,方差未知
样品平均值标准化后的随机变量服从正态分布,即抽样分布服从Z重复抽样与不重复抽样的处理方法略有不同,例如:
整体正态,方差已知整体正态,方差已知,在整体服从正态分布的情况下不重复抽样。σ2在样本较小的情况下,需要使用样本方差s2代替σ2。此时,样本平均值标准化后的随机变量服从自由度(n-1)的t分布,即
举例如下:
总结总体均值范围估计:
样本比例在大样本的前提下p正态分布可用于抽样分布。p数学期望是E§=π,p的方差为σ2p=π(1-π)/n。样本比例标准化后的随机变量服从标准正态分布,即样本比例
即得到总比例π在1-α置信水平下的置信区间为:
通过上式计算总比例π信心区间,π值应该已知。但实际情况不是,π值要估计值,因此需要使用样本比p来代替π。在这种情况下,总比例的信心范围可以表示为:
估计样本不重复抽样。
对于总方差的估计,这里只讨论正态总方差的估计。根据样本方差的抽样分布,样本方差服从自由度n-1的χ2因此使用分布χ2信心区间的整体方差分布结构。
卡方分布是由正态分布变量导出的分布总体方差σ2在1-α置信水平下的置信区间为:
总结:估计总参数的平均值和方差
整体平均值的信心范围由样本平均值组成x由估计误差组成。在重复抽样或无限整体抽样条件下,估计误差为:
其中zα/2值和样本n估计误差的大小共同确定。当确定信心水平时1-α,zα确定/2的值。
定的zα/2的值和总体标准差σ,就可以确定任一希望的估计误差所需要的样本量。令E代表所希望达到的估计误差,即:
{n}
通过上式可以推导出确
毕业证样本网创作《样本统计和总参数(数据分析|统计总参数估计(附代码)》发布不易,请尊重! 转转请注明出处:https://www.czyyhgd.com/180241.html