我希望使用scikit learn的HashingVectorizer,因为它非常适合在线学习问题(文本中的新标记保证映射到“bucket”)。不幸的是,scikit learn中包含的实现似乎不包括对tf-idf特性的支持。通过TfidfTransformer传递矢量器输出是使在线更新与tf-idf功能协同工作的唯一方法,还是有更优雅的解决方案?

最佳答案

本质上,你不能以在线方式使用TF-IDF,因为过去所有功能的IDF将随着每一个新文档而改变,这意味着重新访问和培训所有以前的文档,这些文档将不再在线。
可能有一些近似,但你必须自己实现它们。

关于python - scikit-learn的TfidfVectorizer的在线版本,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/24517793/

10-12 20:54