我正在使用以下方法生成模型:
from sklearn.linear_model import SGDClassifier
text_clf = OnlinePipeline([('vect', HashingVectorizer()),
('clf-svm', SGDClassifier(loss='log', penalty='l2', alpha=1e-3, max_iter=5, random_state=None)),
])
当我使用以下内容导出此模型时:
from sklearn.externals import joblib
joblib.dump(text_clf, 'text_clf.joblib')
我的
text_clf.joblib
是45MB。当我用HashingVectorizer()
替换TfidfVectorizer()
并重新导出时,我的模型为9kb。为什么会有这样的文件差异,以及为什么总要减小HashingVectorizer导出的大小。
最佳答案
HashingVectorizer
是无状态的,因此不会在内存中保留任何内容。从HashingVectorizer
传递到SGDClassifier
的功能的数量。
默认情况下,number of features calculated from the data is
n_features=1048576
因此,
SGDClassifier
必须为所有这些功能保存coef_
,intercept_
等变量。如果您的问题是多类的,这将会增加。对于大于2的类,存储量将增加类次数。需要有关
TfidfVectorizer
功能的更多详细信息。在TfidfVectorizer.vocabulary_
大小仅为9kb的情况下,其大小是多少?您可以通过以下方式访问它:len(text_clf.named_steps['vect'].vocabulary_)