假设我的人口中有n个大理石,而其中只有1%是红色的。在30次抽奖的样本中,我抽出至少1张红色大理石的概率是多少?

我知道P(至少1个红色大理石)= 1-P(没有红色大理石)

我在R中写了一个函数

pMarble = function(n){
   1-(choose(n-ceiling(0.01*n), 30)/choose(n, 30))
}


该函数接受1个参数,即总体中的大理石数量,我使用sapply迭代n的不同值

n = 100:1000
toplot = sapply(n, pMarble)
plot(n, toplot)




为什么情节不连续?我认为这只是一个不断减少的功能。随着大理石总数的增加,假设我只绘制30个大理石,那么绘制至少1个红色大理石(以1%的频率出现在人群中)的概率会单调降低吗?为什么我看到不连续?

最佳答案

假设我的人口中有n个大理石,而其中只有1%是红色的。在30次抽奖的样本中,我抽出至少1张红色大理石的概率是多少?


没错,至少有一个红色大理石的概率为1-Pr(no marbles);对于二项式,实际上是这样的情况(由于平局中的各个大理石选择是独立的),在30次n大理石中没有大理石的概率与在一次平局中没有大理石的概率相同30n大理石...所以我们有1-(1-p)^(30n)

p <- 0.01
par(las=1,bty="l") ## cosmetic
curve(1-(1-p)^(30*x),from=0,to=100,
      xlab="Number of 30-marble draws",ylab="prob(>0 marbles)")




让我们对一个案例进行经验测试:

(1-(1-p)^(30*3))  ## 3 draws, 0.595
set.seed(101)
mean(replicate(100000,
          any(rbinom(3,prob=0.01,size=30)>0)))
## 0.59717

10-08 01:51