点估计和估计量的求法

点估计概念

设总体 X X X 的分布函数是 F ( x ; θ 1 , . . . , θ l ) F(x;\theta_1,...,\theta_l) F(x;θ1,...,θl),其中 θ 1 , . . . , θ l \theta_1,...,\theta_l θ1,...,θl 是未知参数, X 1 , . . . , X n X_1,...,X_n X1,...,Xn 是来自总体 X X X 的样本, x 1 , . . . , x n x_1,...,x_n x1,...,xn 是相应的样本值,参数点估计就是研究如何构造适当的统计量 θ ^ i ( X 1 , . . . , X n ) \hat{\theta}_i(X_1,...,X_n) θ^i(X1,...,Xn),并分别用观察值 θ ^ i ( x 1 , . . . , x n ) \hat{\theta}_i(x_1,...,x_n) θ^i(x1,...,xn) 作为未知参数 θ i \theta_i θi 的估计

通常,称用作估计的统计量 θ ^ i ( X 1 , . . . , X n ) \hat{\theta}_i(X_1,...,X_n) θ^i(X1,...,Xn)估计量,称其观察值 θ ^ i ( x 1 , . . . , x n ) \hat{\theta}_i(x_1,...,x_n) θ^i(x1,...,xn)估计值

由于对不同的样本值,得到的参数估计值往往不同,因此,点估计问题的关键在于构造估计量的方法。下面介绍求估计量的一些常用方法。

矩估计法

设总体 X X X 的分布中含有 l l l 个未知参数 θ 1 , . . . , θ l \theta_1,...,\theta_l θ1,...,θl,又设总体 X X X 的前 l l l 阶原点矩 α k = E ( X k ) ( k = 1 , . . . , l ) \alpha_k=E(X^k)(k=1,...,l) αk=E(Xk)(k=1,...,l) 存在,且是 θ 1 , . . . , θ l \theta_1,...,\theta_l θ1,...,θl 的函数,即 α k = α k ( θ 1 , . . . , θ l ) \alpha_k=\alpha_k(\theta_1,...,\theta_l) αk=αk(θ1,...,θl),令
α k ( θ ^ 1 , . . . , θ ^ l ) = A k , k = 1 , . . . , l \alpha_k(\hat{\theta}_1,...,\hat{\theta}_l)=A_k,\quad k=1,...,l αk(θ^1,...,θ^l)=Ak,k=1,...,l
解此方程组可得 θ ^ 1 , . . . , θ ^ l \hat{\theta}_1,...,\hat{\theta}_l θ^1,...,θ^l,并将它们分别作为 θ 1 , . . . , θ l \theta_1,...,\theta_l θ1,...,θl 的估计量。这种求估计量的方法称为矩估计法,用矩估计法求得的估计量称为矩估计量

例:设总体 X X X 的二阶矩存在, X 1 , . . . , X n X_1,...,X_n X1,...,Xn 为总体 X X X 的样本,求总体均值 μ \mu μ 与总体方差 σ 2 \sigma^2 σ2 的矩估计。

解:因 α 1 = μ , α 2 = σ 2 + μ 2 \alpha_1=\mu, \alpha_2=\sigma^2+\mu^2 α1=μ,α2=σ2+μ2,令 { μ ^ = A 1 = X ˉ σ ^ 2 + μ ^ 2 = A 2 = 1 n ∑ i = 1 n X i 2 \begin{cases} \hat{\mu}=A_1=\bar{X} \\ \hat{\sigma}^2+\hat{\mu}^2=A_2=\frac{1}{n}\sum_{i=1}^n X_i^2 \end{cases} {μ^=A1=Xˉσ^2+μ^2=A2=n1i=1nXi2
解得 μ \mu μ σ 2 \sigma^2 σ2 的矩估计分别为
μ ^ = X ˉ \hat{\mu}=\bar{X} μ^=Xˉ σ ^ 2 = A 2 − X ˉ 2 = S 2 \hat{\sigma}^2=A_2-\bar{X}^2=S^2 σ^2=A2Xˉ2=S2

极大似然估计法

以下用 X = ( X 1 , . . . , X n ) T \boldsymbol{X}=(X_1,...,X_n)^T X=(X1,...,Xn)T 表示样本, x = ( x 1 , . . . , x n ) T \boldsymbol{x}=(x_1,...,x_n)^T x=(x1,...,xn)T 表示样本点, f ( x ; θ ) f(\boldsymbol{x};\theta) f(x;θ) 表示样本分布。

极大似然法的提出是基于如下的想法:

当给定 θ \theta θ 时, f ( x ; θ ) f(\boldsymbol{x};\theta) f(x;θ) 度量样本 X \boldsymbol{X} X x \boldsymbol{x} x 点发生的可能性。对于样本空间中的两个不同样本点 x 1 , x 2 ∈ X \boldsymbol{x}_1, \boldsymbol{x}_2 \in \mathcal{X} x1,x2X,如果有 f ( x 1 ; θ ) > f ( x 2 ; θ ) f(\boldsymbol{x}_1;\theta) > f(\boldsymbol{x}_2;\theta) f(x1;θ)>f(x2;θ),自然会认为样本 X \boldsymbol{X} X 更可能在 x 1 \boldsymbol{x}_1 x1 点发生。

现在换个角度来看待 f ( x ; θ ) f(\boldsymbol{x};\theta) f(x;θ)。当给定样本点 x \boldsymbol{x} x 时,对参数空间中的两个不同参数 θ 1 , θ 2 ∈ Θ \theta_1,\theta_2 \in \Theta θ1,θ2Θ,如果有 f ( x ; θ 1 ) > f ( x ; θ 2 ) f(\boldsymbol{x};\theta_1) > f(\boldsymbol{x};\theta_2) f(x;θ1)>f(x;θ2),那么会认为样本点 x \boldsymbol{x} x是来自总体 f ( X ; θ 1 ) f(\boldsymbol{X};\theta_1) f(X;θ1),所以,数 f ( x ; θ ) f(\boldsymbol{x};\theta) f(x;θ) 的大小可作为参数 θ \theta θ 对产生样本观察值 x \boldsymbol{x} x 有多大似然性的一种度量。

当给定样本点 x \boldsymbol{x} x 时,称 f ( x ; θ ) f(\boldsymbol{x};\theta) f(x;θ) θ \theta θ似然函数,记为 L ( θ ; x ) L(\theta;\boldsymbol{x}) L(θ;x),即
L ( θ ; x ) = f ( x ; θ ) = { ∏ i = 1 n p ( x i ; θ ) , 总体 X 为离散型随机变量 ∏ i = 1 n f ( x i ; θ ) , 总体 X 为连续型随机变量 L(\theta;\boldsymbol{x})=f(\boldsymbol{x};\theta)=\begin{cases} \prod_{i=1}^np(x_i;\theta), & 总体 X 为离散型随机变量 \\ \prod_{i=1}^nf(x_i;\theta), & 总体 X 为连续型随机变量 \end{cases} L(θ;x)=f(x;θ)={i=1np(xi;θ),i=1nf(xi;θ),总体X为离散型随机变量总体X为连续型随机变量
而称 ln ⁡ f ( x ; θ ) \ln f(\boldsymbol{x};\theta) lnf(x;θ)对数似然函数,记为 ln ⁡ L ( θ ; x ) \ln L(\theta;\boldsymbol{x}) lnL(θ;x)

若有统计量 θ ^ ≏ θ ^ ( X ) \hat{\theta}\bumpeq \hat{\theta}(\boldsymbol{X}) θ^θ^(X),使得
L ( θ ^ ( x ) ; x ) = sup ⁡ θ ∈ Θ { L ( θ ; x ) } L(\hat{\theta}(\boldsymbol{x});\boldsymbol{x})=\sup_{\theta \in \Theta}\{L(\theta;\boldsymbol{x})\} L(θ^(x);x)=θΘsup{L(θ;x)}
或等价的,使得
ln ⁡ L ( θ ^ ( x ) ; x ) = sup ⁡ θ ∈ Θ { ln ⁡ L ( θ ; x ) } \ln L(\hat{\theta}(\boldsymbol{x});\boldsymbol{x})=\sup_{\theta \in \Theta}\{\ln L(\theta;\boldsymbol{x})\} lnL(θ^(x);x)=θΘsup{lnL(θ;x)}
则称 θ ^ ( X ) \hat{\theta}(\boldsymbol{X}) θ^(X) 为参数 θ \theta θ极大似然估计量(Maximum Likelihood Estimators, MLE)。

例:设总体 X ∼ P ( λ ) , λ > 0 X \sim P(\lambda),\lambda>0 XP(λ),λ>0,试求参数 λ \lambda λ 的极大似然估计量。

解: X X X 的概率函数为
P { X = x } = λ x x ! e − λ , x = 0 , 1 , 2 , . . . P\{X=x\}=\frac{\lambda^x}{x!}e^{-\lambda},\quad x=0,1,2,... P{X=x}=x!λxeλ,x=0,1,2,...
λ \lambda λ 的似然函数为
L ( λ ) = ∏ i = 1 n ( λ x i x i ! e − λ ) = e − n λ λ ∑ i = 1 n x i ∏ i = 1 n ( x i ! ) L(\lambda)=\prod_{i=1}^n (\frac{\lambda^{x_i}}{x_i!}e^{-\lambda})=e^{-n\lambda}\frac{\lambda^{\sum_{i=1}^nx_i}}{\prod_{i=1}^n(x_i!)} L(λ)=i=1n(xi!λxieλ)=ei=1n(xi!)λi=1nxi
对数似然函数为
ln ⁡ L ( λ ) = − n λ + ln ⁡ λ ∑ i = 1 n x i − ∑ i = 1 n ln ⁡ ( x i ! ) \ln L(\lambda)=-n\lambda+\ln \lambda \sum_{i=1}^nx_i-\sum_{i=1}^n \ln(x_i!) lnL(λ)=+lnλi=1nxii=1nln(xi!)

∂ ln ⁡ L ( λ ) ∂ λ = − n + 1 λ ∑ i = 1 n x i = 0 \frac{\partial \ln L(\lambda)}{\partial \lambda}=-n+\frac{1}{\lambda}\sum_{i=1}^nx_i=0 λlnL(λ)=n+λ1i=1nxi=0
该似然方程有唯一解 λ ^ = 1 n ∑ i = 1 n x i = x ˉ \hat{\lambda}=\frac{1}{n}\sum_{i=1}^nx_i=\bar{x} λ^=n1i=1nxi=xˉ,又因
∂ 2 ln ⁡ L ( λ ) ∂ λ 2 ∣ λ = x ˉ < 0 \frac{\partial^2 \ln L(\lambda)}{\partial \lambda^2}|_{\lambda=\bar{x}}<0 λ22lnL(λ)λ=xˉ<0
λ \lambda λ 的极大似然估计量为 λ ^ = X ˉ \hat{\lambda}=\bar{X} λ^=Xˉ

参考文献

[1] 《应用数理统计》,施雨,西安交通大学出版社。

11-20 07:48