我正在使用 sci-kit
的 TdidfVectorizer
从科学文章列表中提取关键字。有一个关于 stop_words 的论据,但我想知道是否可以为专有名词(如“Bohr”或“Japan”)赋予更多的权重/分数。
我必须实现我自己的自定义 tfidf vectorizer
还是我仍然可以使用这个内置的?
tf = TfidfVectorizer(strip_accents='ascii',
analyzer='word',
ngram_range=(1,1),
min_df = 0,
stop_words = stopwords,
lowercase = True)
最佳答案
您可以为它对 TfIdf 矩阵进行自己的后处理。
首先,您需要查看所有单词索引以找到所有专有名词的索引,然后查看矩阵并增加这些索引的权重。
关于python - 如何在 scikit TfidfVectorizer 中赋予专有名词更多权重,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/44616045/