我正在使用 BeautifulSoup 构建一个从 HTML 中收集的文本和一些元数据的语料库。如果我可以从 Python 中调用 Mallet,并让它从 Python 字符串而不是目录中的文本文件中建模主题,那将会非常有帮助。这样我就可以将 Mallet 定位的 n 个关键字放入每个文件中。

我收到一条消息,说我运行时已经识别了 Mallet:

from nltk.classify import mallet
from subprocess import call
mallet.config_mallet("malletdir/mallet-2.0.7/bin")

但是我在接下来的步骤中没有任何运气,甚至不确定 Mallet 是否接受除保存文件以外的任何内容。

我一直无法找到任何我能真正理解的文档。有没有人看过这方面的可消化文档? (NLTK 书没有进入 Mallet)。我也很乐意学习 Python 中的任何其他主题建模方法,我可以在没有真正深入了解 Python 的情况下操作这些方法。

对不起,这是我的第一场牛仔竞技表演。

最佳答案

如果您仍在寻找解决方案:Gensim(一个 Python 主题建模/机器学习包)有一个 Mallet 的包装器,它易于使用且文档齐全。 Here 是一些 Gensim 教程和用于 Mallet 包装器的特定 tutorial。您可能还想阅读一些安装说明(主要是关于设置 Java 内存的部分)here,然后就可以开始了。

关于python - 将 Python 字符串传递给 Mallet 进行主题建模,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/22481094/

10-09 15:53