我在使用Scikit学习时经历了这个快速的tutorial,并且对NaiveBayes vs Logistc Regression有疑问
Here是笔录的链接-
您应该能够复制/粘贴下面的代码并运行它。如果您得到不同的答案,请告诉我!
import pandas as pd
from sklearn.cross_validation import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn import metrics
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import LogisticRegression
vect = CountVectorizer()
url = 'https://raw.githubusercontent.com/justmarkham/pydata-dc-2016-tutorial/master/sms.tsv'
sms = pd.read_table(url, header=None, names=['label', 'message'])
sms['label_num'] = sms.label.map({'ham': 0, 'spam': 1})
X = sms.message
y = sms.label_num
X_train, X_test, y_train, y_test = train_test_split(X,y, random_state=1)
vect.fit(X_train)
X_train_dtm = vect.transform(X_train)
## NaiveBayes
nb = MultinomialNB()
nb.fit(X_train_dtm, y_train)
# LogisticRegression
logreg = LogisticRegression()
logreg.fit(X_train_dtm, y_train)
# testing data
simple_text = ["this is a spam message spam spam spam"]
simple_test_dtm = vect.transform(simple_text)
# ***NaiveBayes***
nb.predict(simple_test_dtm)
# array([1]) says this is spam
nb.predict_proba(simple_test_dtm)[:, 1]
# array([0.98743019])
# ****Logistic Regression***
logreg.predict(simple_test_dtm)
# array([0]) says this is NOT spam
logreg.predict_proba(simple_test_dtm)[:, 1]
# array([0.05628297])
nb_pred_class = nb.predict(X_test_dtm)
metrics.accuracy_score(y_test, nb_pred_class)
# 0.9885139985642498
lg_pred_class = logreg.predict(X_test_dtm)
metrics.accuracy_score(y_test, lg_pred_class)
# 0.9877961234745154
两个问题:
1.)当LogisticRegression说它是
Spam
时,为什么NaiveBayes返回它是Ham
?两个分类器均返回较高的准确性得分,但给出不同的答案?那使我感到困惑。难道我做错了什么?
2.)
.predict_probab
得分是什么意思?我以为我理解这是分类器响应的准确性。即NB表示它相信其答案(1)的准确性为98%,但这意味着LogReg表示其答案(0)的准确性为6%。这没有意义。
任何帮助将不胜感激。
最佳答案
spam
是您在1
中的第二堂课(即在索引sms.label.map({'ham': 0, 'spam': 1})
处)。因此,您打印的概率是消息为spam
的概率,而不是模型的预测类别的概率。 logreg
给出消息为0.05628297
的spam
概率,这意味着它为0.9437
给出了ham
概率。您的两个模型都非常准确,但这并不意味着他们将在每个测试示例上都达成一致。朴素的贝叶斯(Bayes)正确地做到了这一点,但逻辑回归却错了,应该有其他相反的例子。
关于python - NaiveBayes和LogistcRegression之间令人困惑的结果,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/54500440/