我有这个函数来执行t-test,在字典中,样本和总体使用相同的键。它按预期工作良好。
def ttest_(d):
result = {}
for k, (l, t) in d.items():
mean_sample = np.mean(t)
mean_population = np.mean(l)
sd_sample = np.std(t, ddof=1)
sd_population = np.std(l, ddof=1)
sample_size = len(t)
population_size = len(l)
result[k] = round(((mean_sample - mean_population) /
np.sqrt(((sd_sample/np.sqrt(sample_size))**2) +
((sd_population/np.sqrt(population_size))**2))), 2)
如何修改此函数以便:
-->不要只做一次最后的计算,而是在引导程序中沿着如下几行执行x次:
for _ in range(1000)
-->上一步,将为每个键创建一个T-tests分布,然后结果[k]将是第n个百分点值。。。。你可以用一个参数来指定,并给出一个0.05的值。
编辑1:
为了清楚起见,我使用函数的方式如下:
pairs = {}
for (k, v), (k2, v2) in product(population.items(), samples.items()):
if k == k2:
pairs.update({k: (v, v2)})
然后将公式应用于此dict:
ttest_ = ttest_(pairs)
编辑2:
为了在不同的样本和键之间建立关联,并得到相关联的结果,在字典字典上应用函数的这种结构是很重要的。唯一的区别是添加引导和百分比选择。
编辑3:
多亏了诺曼的问题。为了澄清这一点,在新的公式中,将同一样本[k]与从总体[k]中抽取的随机子样本进行x次比较,得到分布。这些子样本的大小与原始样本的大小相同[k]。
最佳答案
如果我理解正确的话,这应该可以做到。
from itertools import product
import numpy as np
# Generate fake data.
keys = np.arange(100, 130)
populations = {}
samples = {}
for k in keys:
loc = np.random.uniform(-9.0, +9.0)
scale = np.random.uniform(0.4, 4.0)
n = np.random.randint(400, 800)
m = np.random.randint(20, 100)
populations[k] = np.random.normal(loc, scale, n)
samples[k] = np.random.choice(populations[k], m, replace=False)
print('data: key={} pop={} samp={}'.format(k, len(populations[k]), len(samples[k])))
def ttest_(d, p, n=1000):
result = {}
percentiles = (np.arange(n) + 0.5) / n
for k, (pop, sample) in d.items():
size_sample = len(sample)
mean_sample = np.mean(sample)
sd_sample = np.std(sample, ddof=1)
# Generate a distribution of t values.
tvalues = np.zeros(n)
for i in range(n):
sample2 = np.random.choice(pop, size=size_sample, replace=True)
size_sample2 = len(sample2)
mean_sample2 = np.mean(sample2)
sd_sample2 = np.std(sample2, ddof=1)
# Welch's t-test for sample and sample2.
tvalues[i] = (mean_sample - mean_sample2) / \
np.sqrt((sd_sample / np.sqrt(size_sample))**2 +
(sd_sample2 / np.sqrt(size_sample2))**2)
# Interpolate the quantile function at p.
tvalues.sort()
result[k] = round(np.interp(p, percentiles, tvalues), 2)
return result
pairs = {}
for (k, v), (k2, v2) in product(populations.items(), samples.items()):
if k == k2:
pairs[k] = (v, v2)
result = ttest_(pairs, p=0.5)
for k, v in result.items():
print('result: key={} t={}'.format(k, v))
关于python - Bootstrap T方法Python实现,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42700284/