我的任务是使用单词n-gram作为特征,使用svm进行文本分类。
在使用TF-IDF之前,我的代码是:

word_dic = ngram.wordNgrams(text, n)
freq_term_vector = [word_dic[gram] if gram in word_dic else 0 for gram in global_vector]
X.append(freq_term_vector)


而且效果很好。但是,当我尝试使用TF-IDF时,代码如下:

freq_term_vector = [word_dic[gram] if gram in word_dic else 0 for gram in global_vector]
tfidf = TfidfTransformer(norm="l2")
tfidf.fit(freq_term_vector)
X.append(tfidf.transform(freq_term_vector).toarray())


训练部分可以完成,但是当程序运行到预测部分时,它说

 clf.predict(X_test)
  File "/usr/lib/python2.7/dist-packages/sklearn/linear_model/base.py", line 223, in predict
    scores = self.decision_function(X)
  File "/usr/lib/python2.7/dist-packages/sklearn/linear_model/base.py", line 207, in decision_function
    dense_output=True) + self.intercept_
  File "/usr/lib/python2.7/dist-packages/sklearn/utils/extmath.py", line 83, in safe_sparse_dot
    return np.dot(a, b)
ValueError: shapes (1100,1,38) and (1,11) not aligned: 38 (dim 2) != 1 (dim 0)


训练方法和预测方法相同。我该如何解决对齐问题?谁能帮助我检查上面的代码或给我一些想法?

最佳答案

我认为问题出在附录上,请尝试以下操作:

...
X = tfidf.transform(freq_term_vector)
...
X_test = tfidf.transform(freq_term_vector_test)
clf.predict(X_test)

关于python - 如何使用TF-IDF构造单词n-gram的训练向量,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/26450647/

10-12 17:42
查看更多