Closed. This question is opinion-based。它当前不接受答案。












想要改善这个问题吗?更新问题,以便editing this post用事实和引用来回答。

4年前关闭。



Improve this question




我以前的Java项目都使用LingPipe,Stanford的NER,RiTa和各种句子相似性库,这些库专注于处理大量英文文本(大约10,000个文档)的文本(预处理)(索引,xml标记,主题检测等)。总计> 1gb的文本)。也许我是一个糟糕的Java程序员,但是当我切换到另一个语料库时,我发现自己要键入很多代码并使用很多库。总的来说,我觉得可能会有更好的工具来完成这项工作。

我想我的问题是,我可以从使用Python和NLTK进行信息检索/语言处理中受益吗?还是有足够的利弊使其非常主观? NLTK足够直观,可以快速学习吗?

我会弄脏我的手,但是接下来的几天我将无法使用个人计算机。

最佳答案

NLTK非常适合自然语言处理。我已经将它用于我的数据挖掘项目。您可以训练自己的分析仪。学习曲线并不陡峭。

NLTK为您的分析仪培训提供了庞大的语料库。您还可以提供自己的数据集,例如带有词性标记的日记。

因为python对于文本处理非常有用,所以您可以尝试一下。另外,它还有一个在线tutorial

请不要忘记使用python 2.x版本。尝试使用python 2.6。
NLTK可能不适用于python 3.x

10-06 16:07
查看更多