我在本地文件系统上存储了大约2000万个文件,每个文件5k代表一条推文。
存储如下:
因此有可能编写一个map reduce Java程序,将某个标签下的所有tweet移动到基于该标签的HDFS中的singe目录中。
有类似的例子吗?
最佳答案
如https://blog.cloudera.com/blog/2009/02/the-small-files-problem/所示,
首先制作序列文件,然后将其上传到HDFS。
我在本地文件系统上存储了大约2000万个文件,每个文件5k代表一条推文。
存储如下:
因此有可能编写一个map reduce Java程序,将某个标签下的所有tweet移动到基于该标签的HDFS中的singe目录中。
有类似的例子吗?
最佳答案
如https://blog.cloudera.com/blog/2009/02/the-small-files-problem/所示,
首先制作序列文件,然后将其上传到HDFS。