r - 如何使R tm语料库达到1亿条推文？

我想使用R的分布式计算tm包(称为tm.plugin.dc)来制作1亿条推文的文本语料库。这些推文存储在笔记本电脑上的一个大型MySQL表中。我的笔记本电脑很旧，所以我正在使用在Amazon EC2上设置的Hadoop集群。

tm.plugin.dc documentation from CRAN表示当前仅支持DirSource。该文档似乎建议DirSource每个文件只允许一个文档。我需要将所有推文都视为文档的语料库。我有1亿条推文-这是否意味着我需要在旧笔记本电脑上制作1亿个文件？那似乎太过分了。有没有更好的办法？

我到目前为止已经尝试过:

将MySQL表的文件转储作为单个(大量).sql文件。将文件上传到S3。将文件从S3传输到群集。使用Cloudera的Sqoop工具将文件导入Hive。怎么办？我不知道如何使DirSource与Hive一起使用。

在我的笔记本电脑上将每个tweet设为一个XML文件。但是如何？我的电脑很旧，无法正常工作。 ...如果我能克服这个问题，那我将:将所有1亿个XML文件上传到Amazon S3的文件夹中。将S3文件夹复制到Hadoop集群。将DirSource指向该文件夹。

最佳答案

制作具有1亿条推文的巨大HDFS文件，然后通过标准R' tm 软件包进行处理，会不会更容易，更合理？

在我看来，这种方法更为自然，因为HDFS是为大文件和分布式环境开发的，而R是出色的分析工具，但没有并行性(或有限)。您的方法看起来像是使用工具来开发未针对...