我有五个输入到CountVectorizer的文本文件。为CountVectorizer实例指定min_df和max_df时,最小/最大文档频率到底是什么意思?是某个单词在其特定文本文件中的出现频率,还是整个整体语料库(5个txt文件)中该单词的出现频率?

当min_df和max_df作为整数或浮点数提供时有何不同?

该文档似乎没有提供详尽的解释,也没有提供示例来演示min_df和/或max_df的用法。有人可以提供说明或示例来演示min_df或max_df。

最佳答案

max_df用于删除出现在过于频繁的词,也称为“特定于语料库的停用词”。例如:

  • max_df = 0.50的意思是“忽略出现在中超过50%的文档中的术语”。
  • max_df = 25的意思是“忽略出现在中超过25个文档的术语”。

  • 默认的max_df1.0,这意味着“忽略出现在中超过文档 100%以上的术语”。因此,默认设置不会忽略任何术语。
    min_df用于删除不太常见于的出现在的术语。例如:
  • min_df = 0.01的意思是“忽略出现在中少于文档 1%的术语”。
  • min_df = 5的意思是“忽略出现在中少于5个文档的术语”。

  • 默认的min_df1,这意味着“忽略出现在中且少于1个文档的术语”。因此,默认设置不会忽略任何术语。

    关于python - 了解scikit CountVectorizer中的min_df和max_df,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/27697766/

    10-10 17:58