置信度是什么意思(909599置信区间)

置信度是什么意思(909599置信区间)机器学习本质上是条件概率或概率分布的估计,而这样的估计有多少是置信度?这就涉及到统计学中的置信区间和置信度。简要介绍了置信区间的核心概念,有助于我们直观地理解评价和估计的度量方法。 本文讨论统计学中…

大家好,我是讯享网,很高兴认识大家。

机器学习本质上是条件概率或概率分布的估计,而这样的估计有多少是置信度?这就涉及到统计学中的置信区间和置信度。简要介绍了置信区间的核心概念,有助于我们直观地理解评价和估计的度量方法。

本文讨论统计学中的一个基本术语:置信区间。我们只是用非常友好的方式讨论一般概念,没有太多花哨的统计术语,同时我们会用Python来完成简单的实现!虽然这个术语非常基础,但我们有时很难完全理解置信区间到底是什么,以及我们为什么需要它。

假设你想知道美国有多少人热爱足球。为了得到一个100%正确的答案,你唯一能做的就是问每一个美国公民是否热爱足球。根据维基百科,美国有超过3.25亿人。和3.25亿人对话是不现实的,所以要问更少的人才能得到答案。

我们可以通过在美国随机选取一些人(和更少的人交谈),得出热爱足球的人的百分比,但我们不能100%确定这个数字是正确的,或者离真正的答案有多远。所以,我们想要达到的是得到一个区间。比如这个问题一个可能的答案是:“我相信美国95%的足球迷占58%到62%”。这就是置信区间名称的由来。我们有一个区间,我们对此有一定的信心。

我们的样本是随机的,这一点非常重要。我们不能只从我们生活的城市中选出1000人,因为那样我们就不能很好地代表整个美国。另一个不好的例子是,我们不能向这1000个随机用户发送脸书消息,这样我们就会得到美国脸书用户最喜欢的趋势,因为不是所有的美国公民都使用脸书。

因此,假设我们随机选取了1000名美国人作为样本,我们发现其中63%的人喜欢足球。我们可以假设(推断)整个美国人口的情况吗?

要回答这个问题,我希望我们可以换个角度来看。假设我们知道(理论上)美国人的确切比例,并且是65%,那么随机选取1000人,其中只有63%的人喜欢足球的几率有多大?让我们用Python来探讨这个问题吧!

love_soccer_prop = 0.65 #热爱足球的人的真实百分比total_population = 325*10**6 #美国总人口(3.25亿)num _ people _ love _ soccer = int(Total _ population * love _ soccer _ prop)num _ people _ dont _ love _ soccer = int(Total _ population *(1-love _ soccer _ prop))people _ love _ soccer = NP . ones(num _ of _ people _ who _ love _ soccer)people _ zeros(num _ love _ soccer因为我们可以通过计算其平均值来得到数组中的百分比。其实是65%。

现在,让我们进行几组容量为1000个样本的实验,看看我们得到的百分比是多少:

对于范围(10)中的I:sample = NP . random . choice(all _ people,size=1000)打印’ Sample ‘,I,’:’,np.mean(sample)#输出:样本0:0.641样本1:0.647样本2:0.661样本3:0.642样本4:0.652样本5:0.647样本6:0.671样本7:0.629样本8:0.648样本9:0.622让我们试试这个!让我们取大量样本,看看会发生什么:

values =[]for I in range(10000):sample = NP . random . choice(all _ people,Size = 1000)mean = NP . mean(sample)values . append(mean)print NP . mean(values)# output = 0.649822599999999992我们创建了10K样本,检查了每个样本中热爱足球的人的百分比,然后取平均值,我们得到了64.98%让我们把得到的所有值画出来:

你在这里看到的是我们得到的所有样本值的直方图。这个直方图的一个很好的特性是它非常类似于正态分布。我说过,这里不想用太多的统计术语,但是假设我们多次(无限次)这样做,会得到一个非常接近正态分布的直方图,我们可以知道它的参数。更简单地说,我们将知道这个直方图的形状,因此我们可以准确地知道在任何数值范围内有多少样本。

这里有一个例子。我们将多次运行该模拟(试图达到无穷大):

首先,我们可以看到直方图的中心(平均值)接近65%,正如我们预期的那样,但我们可以通过查看直方图获得更多信息。例如,我们可以说一半的样本大于65%,或者我们可以说大约25%的样本大于67%,甚至(粗略地)只有2.5%的样本大于68%。

此时,很多人可能会问两个重要的问题:“我怎样才能得到无数的样本?”以及“它对我有什么帮助?」。

让我们回到我们的例子。我们抽样了1000个人,得到了63%。我们想知道随机抽样的1000人中有63%是足球迷的概率是多少?使用这个直方图,我们可以说有(大概)25%的概率我们会得到一个小于或等于63%的值。理论告诉我们,我们实际上不需要得到一个无限的样本。如果随机抽取1000人,有可能只有63%的人喜欢足球。

实际上,为了找到不同数值范围或区间的概率,我们需要知道或至少估计总体分布的标准差。因为我们想把事情简单化,所以现在不讨论了。

让我们回到现实,回到真正的问题。我不知道美国足球迷的实际比例。我只取了一个样本,得了63%。这对我有什么帮助?

所以,我们不知道美国热爱足球的人的实际比例。我们知道的是,如果我们从总体分布中抽取无数个样本,它看起来会是这样的:

这里μ是总体分布的平均值(在我们的例子中是足球迷的实际百分比),σ是总体分布的标准差。

如果我们知道这一点(并且我们知道标准偏差),我们可以说大约64%的样本将落在红色区域,或者超过95%的样本将落在图中的绿色区域之外:

如果我们使用之前假设的实际百分比65%的图表,那么超过95%的样本将在62%和68%之间(±3)。

当然,距离是对称的,所以如果95%的样本落在实际百分比-3和+3之间,那么实际百分比落在样本百分比-3和+3之间的概率是95%。

如果我们取一个样本,得到63%,那么我们可以说95%确信实际比例在60% (63-3)到66% (63+3)之间。

这是置信区间,区间是63+-3,置信度是95%。

希望你现在对置信区间有了更好的理解,但是这个介绍忽略了一些重要的技术部分。很多文章都包含这些部分,读者可以继续阅读相关资料,增强理解。

原文链接:https://towards data science . com/a-very-friendly-introduction-to-confidence-intervals-9 add 126 e 714

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。
本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://51itzy.com/28854.html
(0)
上一篇 2023年 10月 29日 09:40
下一篇 2023年 10月 29日 10:00

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注