我想使用R的分布式计算tm包(称为tm.plugin.dc)来制作1亿条推文的文本语料库。这些推文存储在笔记本电脑上的一个大型MySQL表中。我的笔记本电脑很旧,所以我正在使用在Amazon EC2上设置的Hadoop集群。

tm.plugin.dc documentation from CRAN表示当前仅支持DirSource。该文档似乎建议DirSource每个文件只允许一个文档。我需要将所有推文都视为文档的语料库。我有1亿条推文-这是否意味着我需要在旧笔记本电脑上制作1亿个文件?那似乎太过分了。有没有更好的办法?

我到目前为止已经尝试过:

  • 将MySQL表的文件转储作为单个(大量).sql文件。将文件上传到S3。将文件从S3传输到群集。使用Cloudera的Sqoop工具将文件导入Hive。怎么办?我不知道如何使DirSource与Hive一起使用。
  • 在我的笔记本电脑上将每个tweet设为一个XML文件。但是如何?我的电脑很旧,无法正常工作。 ...如果我能克服这个问题,那我将:将所有1亿个XML文件上传到Amazon S3的文件夹中。将S3文件夹复制到Hadoop集群。将DirSource指向该文件夹。
  • 最佳答案

    制作具有1亿条推文的巨大HDFS文件,然后通过标准R' tm 软件包进行处理,会不会更容易,更合理?

    在我看来,这种方法更为自然,因为HDFS是为大文件和分布式环境开发的,而R是出色的分析工具,但没有并行性(或有限)。您的方法看起来像是使用工具来开发未针对...

    07-26 08:55