r - R:计算绘制至少1个红色大理石的概率

假设我的人口中有n个大理石，而其中只有1％是红色的。在30次抽奖的样本中，我抽出至少1张红色大理石的概率是多少？

我知道P（至少1个红色大理石）= 1-P（没有红色大理石）

我在R中写了一个函数

pMarble = function(n){
   1-(choose(n-ceiling(0.01*n), 30)/choose(n, 30))
}

该函数接受1个参数，即总体中的大理石数量，我使用sapply迭代n的不同值

n = 100:1000
toplot = sapply(n, pMarble)
plot(n, toplot)

为什么情节不连续？我认为这只是一个不断减少的功能。随着大理石总数的增加，假设我只绘制30个大理石，那么绘制至少1个红色大理石（以1％的频率出现在人群中）的概率会单调降低吗？为什么我看到不连续？

最佳答案

假设我的人口中有n个大理石，而其中只有1％是红色的。在30次抽奖的样本中，我抽出至少1张红色大理石的概率是多少？

没错，至少有一个红色大理石的概率为1-Pr(no marbles)；对于二项式，实际上是这样的情况（由于平局中的各个大理石选择是独立的），在30次n大理石中没有大理石的概率与在一次平局中没有大理石的概率相同30n大理石...所以我们有1-(1-p)^(30n)。

p <- 0.01
par(las=1,bty="l") ## cosmetic
curve(1-(1-p)^(30*x),from=0,to=100,
      xlab="Number of 30-marble draws",ylab="prob(>0 marbles)")

让我们对一个案例进行经验测试：

(1-(1-p)^(30*3))  ## 3 draws, 0.595
set.seed(101)
mean(replicate(100000,
          any(rbinom(3,prob=0.01,size=30)>0)))
## 0.59717