我试图使用下面的代码获取此数据集。
from sklearn.datasets import fetch_20newsgroups
twenty_train = fetch_20newsgroups(subset='train')
但是,此后发生了错误。该程序然后被杀死。
No handlers could be found for logger "sklearn.datasets.twenty_newsgroups"
Killed
我尝试稍后手动加载这些文件
twenty_train = load_files('/root/scikit_learn_data/20news_home/20news-bydate-train')
还有这个
twenty_train = load_files('/root/scikit_learn_data/20news_home/20news-bydate-train',encoding='latin1')
仅前者有效。
最佳答案
看起来scikit-learn正在尝试报告某些错误,而您尚未配置输出。甚至在尝试您的代码时,我也遇到了完全相同的问题。我通过设置记录器来修复它:
import logging
logging.basicConfig()
现在尝试加载数据集会给我以下警告:
WARNING:sklearn.datasets.twenty_newsgroups:Download was incomplete, downloading again.
WARNING:sklearn.datasets.twenty_newsgroups:Downloading dataset from http://people.csail.mit.edu/jrennie/20Newsgroups/20news-bydate.tar.gz (14 MB)
在系统上完成下载(14 MB)之后,您将在
twenty_train
变量中加载数据集。希望这可以帮助!