我的tf-idf矩阵是从我的文本文件生成的。我想更重视一些词汇术语。
我已经写了下面的代码。我怎样才能把特定词汇的权重加倍。我需要将计数加倍还是将TFIDF的权重乘以2。我想增加d的一些术语的重要性

from sklearn.feature_extraction.text import CountVectorizer

count_vectorizer = CountVectorizer(min_df=1,stop_words="english")
term_freq_matrix = count_vectorizer.fit_transform(vectoriser.mydoclist)
# print "Vocabulary:", count_vectorizer.vocabulary_

from sklearn.feature_extraction.text import TfidfTransformer

tfidf = TfidfTransformer(norm="l2")
tfidf.fit(term_freq_matrix)

tf_idf_matrix = tfidf.transform(term_freq_matrix)
print len(count_vectorizer.get_feature_names())

最佳答案

您可以将TFIDF或计数加倍,这是等效的。
对你来说,我会做一些

position = count_vectorizer.vocabulary_['the_important_word']
tf_idf_matrix[:, position] *= 2.0

关于python - 如何将来自SCIKIT的CountVectoriser的权重加倍以获取TFIDF矩阵,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42620153/

10-10 14:34