我有五个输入到CountVectorizer的文本文件。为CountVectorizer实例指定min_df和max_df时,最小/最大文档频率到底是什么意思?是某个单词在其特定文本文件中的出现频率,还是整个整体语料库(5个txt文件)中该单词的出现频率?
当min_df和max_df作为整数或浮点数提供时有何不同?
该文档似乎没有提供详尽的解释,也没有提供示例来演示min_df和/或max_df的用法。有人可以提供说明或示例来演示min_df或max_df。
最佳答案
max_df
用于删除出现在过于频繁的词,也称为“特定于语料库的停用词”。例如:
max_df = 0.50
的意思是“忽略出现在中超过50%的文档中的术语”。 max_df = 25
的意思是“忽略出现在中超过25个文档的术语”。 默认的
max_df
是1.0
,这意味着“忽略出现在中超过文档 100%以上的术语”。因此,默认设置不会忽略任何术语。min_df
用于删除不太常见于的出现在的术语。例如:min_df = 0.01
的意思是“忽略出现在中少于文档 1%的术语”。 min_df = 5
的意思是“忽略出现在中少于5个文档的术语”。 默认的
min_df
是1
,这意味着“忽略出现在中且少于1个文档的术语”。因此,默认设置不会忽略任何术语。关于python - 了解scikit CountVectorizer中的min_df和max_df,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/27697766/