假设我有一个很大的序列文件,但是我只想在本地处理前1000行。我怎样才能做到这一点?
目前我的代码看起来像这样
JavaPairRDD<IntWritable,VectorWritable> seqVectors = sc.sequenceFile(inputPath, IntWritable.class, VectorWritable.class);
最佳答案
您应该做的是这些parallelize
的array
:
JavaPairRDD<IntWritable,VectorWritable> RDDwith1000 = sc.parallelize(seqVectors.take(1000));
参见here及以下的简单示例: