我正在使用 sci-kitTdidfVectorizer 从科学文章列表中提取关键字。有一个关于 stop_words 的论据,但我想知道是否可以为专有名词(如“Bohr”或“Japan”)赋予更多的权重/分数。

我必须实现我自己的自定义 tfidf vectorizer 还是我仍然可以使用这个内置的?

tf = TfidfVectorizer(strip_accents='ascii',
                     analyzer='word',
                     ngram_range=(1,1),
                     min_df = 0,
                     stop_words = stopwords,
                     lowercase = True)

最佳答案

您可以为它对 TfIdf 矩阵进行自己的后处理。

首先,您需要查看所有单词索引以找到所有专有名词的索引,然后查看矩阵并增加这些索引的权重。

关于python - 如何在 scikit TfidfVectorizer 中赋予专有名词更多权重,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/44616045/

10-12 22:41