python - 在NLTK中创建自己的语料库的优势

我在Mysql表中有大量文本。我想进行一些统计分析，然后再使用NLTK工具包对我的文字进行一些NLP分析。
我有两种选择:

从我的数据库表中一次提取所有文本(如果需要，可以将它们放在文件中)并使用NLTK函数

提取文本并将其转换为可与NLTK一起使用的“语料库”。

后者似乎相当复杂，我还没有找到任何实际描述如何使用它的文章，我只是发现了这一点:Creating a MongoDB backed corpus reader，它使用MongoDB作为其数据库，并且代码非常复杂，并且还需要了解MongoDB。另一方面，前者似乎很简单，但是会导致从DB提取文本的开销很大。

现在的问题是，NLTK中的语料库有哪些优势？换句话说，如果我接受挑战并深入研究覆盖NTLK方法以便可以从MySQL数据库读取它，那么是否值得为此烦恼？将文本转换为语料库是否会给我一些(或者很困难)普通NLTK函数无法做的事情？

另外，如果您对将MySQL连接到NLTK有所了解，请告诉我。
谢谢

最佳答案

好了，在阅读了很多书之后，我找到了答案。
有几种非常有用的功能，例如并置，搜索，通用上下文等，可用于在NLTK中另存为语料库的文本上。自己实现它们需要花费一些时间。如果从数据库中选择我的文本并放入文件中并使用nltk.Text函数，那么我可以使用前面提到的所有函数，而无需编写太多代码行甚至是重写方法，从而可以连接到MySql。这是更多信息的链接:nltk.Text