我想使用R的分布式计算tm包(称为tm.plugin.dc)来制作1亿条推文的文本语料库。这些推文存储在笔记本电脑上的一个大型MySQL表中。我的笔记本电脑很旧,所以我正在使用在Amazon EC2上设置的Hadoop集群。
tm.plugin.dc documentation from CRAN表示当前仅支持DirSource。该文档似乎建议DirSource每个文件只允许一个文档。我需要将所有推文都视为文档的语料库。我有1亿条推文-这是否意味着我需要在旧笔记本电脑上制作1亿个文件?那似乎太过分了。有没有更好的办法?
我到目前为止已经尝试过:
最佳答案
制作具有1亿条推文的巨大HDFS文件,然后通过标准R' tm 软件包进行处理,会不会更容易,更合理?
在我看来,这种方法更为自然,因为HDFS是为大文件和分布式环境开发的,而R是出色的分析工具,但没有并行性(或有限)。您的方法看起来像是使用工具来开发未针对...