我在Mysql表中有大量文本。我想进行一些统计分析,然后再使用NLTK工具包对我的文字进行一些NLP分析。
我有两种选择:
后者似乎相当复杂,我还没有找到任何实际描述如何使用它的文章,我只是发现了这一点:Creating a MongoDB backed corpus reader,它使用MongoDB作为其数据库,并且代码非常复杂,并且还需要了解MongoDB。另一方面,前者似乎很简单,但是会导致从DB提取文本的开销很大。
现在的问题是,NLTK中的语料库有哪些优势?换句话说,如果我接受挑战并深入研究覆盖NTLK方法以便可以从MySQL数据库读取它,那么是否值得为此烦恼?将文本转换为语料库是否会给我一些(或者很困难)普通NLTK函数无法做的事情?
另外,如果您对将MySQL连接到NLTK有所了解,请告诉我。
谢谢
最佳答案
好了,在阅读了很多书之后,我找到了答案。
有几种非常有用的功能,例如并置,搜索,通用上下文等,可用于在NLTK中另存为语料库的文本上。自己实现它们需要花费一些时间。如果从数据库中选择我的文本并放入文件中并使用nltk.Text
函数,那么我可以使用前面提到的所有函数,而无需编写太多代码行甚至是重写方法,从而可以连接到MySql。这是更多信息的链接:nltk.Text