在现实生活中,如何从海量数据中选择合适的样本数量进行研究和反馈,从而反映整体情况是一个常见的问题。例如,如何在数千万人口的城市选择样本;在一些国家的选举中,有多少问卷可以反映整体情况;在机器学习模型的准确性过程中,应该选择多少样本来反馈模型的准确性;这些是生活和工作中经常遇到的问题。一般来说,这里有两种常见的情况:样本数据是什么意思?
1.通过置信度(confidencelevel),置信区间(confidenceinterval),总体数量(population),来计算样本数(samplesize);2.通过置信度(confidencelevel),总体数量(population),样本数量(samplesize),比例(percentage),计算置信区间(confidenceinterval);
当调查是随机抽样时,最小样本数可以通过统计来确定。一般来说,样本数可以根据以下简单的规则来选择:样本数据是什么意思?
最小样本数为100:样本数据是什么意思?
对于抽样数据,至少应提取100个样本进行评估;当总数小于100时,只需提取所有样本进行研究和分析;合适的最大样本数(maximumsamplesize)可以用以下公式简单计算:表示总量;比如当时最大样本数可以选择500;当时最大样本数只需要选择1000;在研究和抽样时,可以在最小样本数和最大样本数之间选择合适的值;(1)选择接近最小样本数的值是因为资金和时间有限;只需要粗略的估计;不需要整体分类分析,只需要整体结论;这个结论不会有太多的疑问;这个分析结果不会对下游的分析决策产生太大的影响。(2)选择接近最大样本数的值是因为:资金和时间充足;如果你想得到准确的估计,你可以分组分析整体;大家都会质疑这个结论;这个分析结果会导致下游很多重要的决策。样本数的选择可以简单参考下表:总量总量总量总量误差范围(MarginofError)>正负10%正负7.5在正负5%正负3%信心95%的前提下
从表中可以看出,如果只需要保证95%的信心度,当总量很大的时候,只需要抽取1067个样本进行分析。有两个网站在线计算样本量,即:(1)(2)95%的信心度99%。从以上案例可以看出,设置了信心度(ConfidenceLevel),置信区间(ConfidenceInterval),总量(Population)之后,你可以得到样本的数量(SampleSizeNeeded)。其中,信心区间是误差范围(MarginofError)。例如,如果信心度为95%,则信心范围(confidenceinterval)=4,在样本中,47%的比例选择了一个选项,这意味着95%的信心,在所有数据中(47%)-4%,47% 4%)=(43%,51%)选择一个选项。95%的信心意味着这句话的正确概率是95%,99%的信心意味着这句话的正确概率是99%。
信心范围的计算由三个因素决定:信心度(ConfidenceLevel),样本数量(SampleSize),总量(Population)。一般来说,
信心:信心越大,信心范围越大。与99%的信心相比,95%的信心产生的信心范围会更小;样本大小:样本越多,越能反映整体情况,信心范围越小;比例越小;(Percentage):样本中选择结果的比例;因为Percentage(p)和1-p获得的信心范围(ConfidenceInterval)所以:(1)Percentage(p)越接近0或1,信心范围越小;(2)Percentage(p)信心范围越近50%,信心范围越大,因为此时不确定性最高;信心范围计算1信心范围计算2信心范围计算3信心范围计算4假设表示总数,表示总数满足某个选项,表示抽样数,表示样本中满足某个选项的数量。.可以通过样本中满足某个选项的比例来估计一个整体满足某个选项的比例。如果可信度是,则使用正常分布的概率Prob换句话说,.和谐关系如下图所示。信心区间是
正态分布可以根据正态分布的定义同时选择最大样本数:因此,最大样本数是表示置信区间和置信度。置信区间的公式是:从WolframAlpha可以得到:
如果信心范围为信心,最大样本数为:如果信心范围为信心,最大样本数为:如果信心范围为信心范围,如果信心范围为在线计算工具(1):在线计算工具(2):SampleSizeDetermination:Populationproportion::中文讲义:
这个问题可以提炼为:
样本量至少能达到多少才能反映整体特征?
例如,我们做标签nlp模型时,如何在有限的人力和时间内最大限度地了解模型输出的1万条记录?
据估计,所有做推荐系统的人都有一种痛苦的感觉,哈哈离开信心范围和信心水平谈论最少的样本量流氓。
1)置信区间
在中间,一个信心区间(Confidenceinterval,CI),是这个样本的一个整体。信心区间显示,该总参数的真实值必须落在与测量结果相关的相应区间。
2)置信水平
信心范围给出了测量值范围内声称总参数真实值的可信度,即上述要求的一定概率。这种概率被称为信心水平。
有时也叫:置信度。
例如,特朗普在美国大选中的支持率为55%,这是令人信服的0.95上面的信心范围是(50%,60%),所以他的实际支持率在50%和60%之间的概率是95%,所以他的实际支持率不到50%的可能性小于2.5%(假设分布是对称的)。
言归正传。
幸运的是,有一个工具可以帮助我们快速确定最小样本量:
找到你的置信区间如上图所示,其中:
1)ConfidenceLevel:置信水平/置信度
2)SampleSize:样本大小
3)Population:总体大小
4)Percentage:错误率
结果就是:
ConfidenceInterval:置信区间
例如,在上图中,信用水平/信用度为95%,样本为1000个,总体为1万个,错误率为50%(错误的一半是正确的,这是最可接受的),信心区间为 -3.08
如上图所示,寻找最少样本量:
2)ConfidenceInterval:置信区间
3)Population:总体数量
4)Samplesizeneeded:样本量最少
如果您了解以上内容,请查看以下有趣的问题,并使用以上知识:
池塘里有一群鱼。如何快速估计池塘里的鱼数?还有八九不离十条件:只能用手捞上来,数清楚再放进去,杠精自觉消失
参考答案:先抓A做个标记(随便做个标记,温柔点挂个label,残忍点的话剪掉鳍)然后放回池塘让鱼游一会儿(important!为什么?)再捞上来A条,数一数有标记的鱼。B条那么:A/总=B/A(为什么?)所以:总数=n^2/x条鱼感到不安,可以在我的在线课程中反复讨论如何在产品操作中使用样本来分析整体,欢迎学习:
附上我的毕业证书样本网站Live我希望喜欢数据分析的人能学到有趣的数据分析知识,并在工作和生活中应用更多:
数学等四个话题下的优秀答案
数据分析/数据操作/数据增长找到90028565个原始样本数据意味着什么设计图片,包括样本数据意味着什么图片、材料、海报、证书背景、源文件PSD、PNG、JPG、AI、CDR等格式素材!
毕业证样本网创作《样本数据是什么意思(样本数据达到多少统计指标有意义?》发布不易,请尊重! 转转请注明出处:https://www.czyyhgd.com/176555.html