数据分析师
数据分析师
假设检验
假设检验的基本步骤(以两个总体均值的假设检验为例):
(1)建立原假设H成立,备择假设H1;原假设Ho:从1=2(或μ1≥μ2,或μ1≤μ2),备择假设H1从1≠μ2(或从1<μ2,或μ1>μ2)。一般假设H为真,对其统计检验;H与H1对立,两者择一。(2)确定小概率事件的界值。一般情况下我们将p<0.05或p<0.01作为小概率的界值。(这里的0.05和0.01称为显著性水平)。
(3)获取样本,即随机抽样。
(4)选择检验的方法,选择具体的检验统计量并计算。
(5)确定P值,并根据P值与显著性水平的关系得出相应结论。
假设检验的两类错误
H0为真 | 正确 |
H0为假 | II型错误 |
注意事项:拒绝或无法拒绝假设,并不等于100%正确,两类错误的概率相加并不一定等于1,样本量不变的情况下,错误不能同时增大或减小
假设检验的基本思想及遵循这样的思想、步骤等过程对业务与数据分析流程的指导作用
假设检验的基本思想为验证性数据分析,调先验理论在数据分析中的核心地位。从提出假设理论出发,到验证假设的过程提示,数据分析理论的先导作用,所以业务流与假设检验的步骤可以大体概括如下:
(1)建立原假设成立,确定业务需求,明确目的;
(2)确定小概率事件的界值,概率界值在不同行业中通用;
(3)获取样本,收集或调查数据;
(4)选择检验的方法。选择具体的统计方法;
(5)确定P值,根据原需求和数据得出结论,需求目的是否得到支持。
所以可以看出,业务流程的数据分析与假设检验的流程是一致的。
z统计量的函数形式
一个总体,总体均值的假设检验,总体正态,总体方差已知,可以用样本均值的标准误差,按正态分布计算临界比率
z=\frac{\overline{x}-\mu_0}{\frac{\sigma}{\sqrt{n}}}
一个总体,总体均值的假设检验,总体为非正态分布,总体方差未知,大样本。原则上用非参数检验;0n的样本量较大(0大于等于30或50),服从近似正态分布(总体已知)。
z=\frac{\overline{x}-\mu_0}{\frac{S}{\sqrt{n}}}
t统计量的函数形式
一个总体,总体均值的假设检验,总体正态,总体方差未知,小样本(通常是指小于30)
t=\frac{\overline{x}-\mu_0}{\frac{S}{\sqrt{n}}}
卡方统计量的函数形式
卡方检验统计量用户单总体的方差检验
X^2=\frac{(n-1)S^2}{\sigma^2}~X^2(n-1)
F统计量的函数形式
F检验统计量用于两个总体方差检验
原假设H0
\sigma^2_1=\sigma^2_2
检验统计量
F=\frac{S^2_1}{S^2_2}~F(n_1-1,n_2-1)
利用P值进行检验
P值是一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率,可以表示对原假设的支持程度,是用于确定是否应该拒绝原假设的一种方法,当P值小于显著性水平的时候,就需要拒绝原假设,否则就无法拒绝原假设。
左侧检验的P值为检验统计量X小于样本统计值C的概率,即:P=P{X
单侧检验
(以右侧检验为例)P值为样本统计值X(将样本值带入检验统计量中的计算结果)右侧的面积(概率)
双侧检验
P值为样本统计值得绝对值右侧面积的两倍