对于这个问题的简单性,我预先表示歉意。我没有统计方面的背景知识,并且迷失了所有这些方面。

如果我有成千上万个数字,所有结果都是二进制

number,outcome
14,0
27,1
88,1
04,0
42,1


我如何预测未来的数字?例如:

82
45
02


还是由于只有一个变量,这将是不准确的吗?我看到的所有示例都使用多个变量。

我一直在研究statsmodels并经历了这个很棒的教程:http://blog.yhathq.com/posts/logistic-regression-and-python.html。通过这一点,我做到了:

import pandas as pd
import statsmodels.api as sm

df = pd.read_csv("binary.csv")
df.columns = ["number", "outcome"]
data = df[['number', 'outcome']]
train_cols = data.columns[0]
logit = sm.Logit(data['outcome'], data[train_cols])
result = logit.fit()
print result.summary()


但这似乎是在分析当前数字的权重,您将如何预测新数字?我什至会以正确的方式这样做吗?

最佳答案

拟合结果应具有方法predict()。那就是您需要用来预测未来价值的东西,例如:

result = sm.Logit(outcomes, values).fit()
result.predict([82,45,2])

10-04 22:23