我尝试在spark中读取一个csv文件,并且我想拆分以逗号分隔的行,以便具有带二维数组的RDD。我是Spark的新手。
我试图做到这一点:
public class SimpleApp
{
public static void main(String[] args) throws Exception
{
String master = "local[2]";
String csvInput = "/home/userName/Downloads/countrylist.csv";
String csvOutput = "/home/userName/Downloads/countrylist";
JavaSparkContext sc = new JavaSparkContext(master, "loadwholecsv", System.getenv("SPARK_HOME"), System.getenv("JARS"));
JavaRDD<String> csvData = sc.textFile(csvInput, 1);
JavaRDD<String> words = csvData.map(new Function <List<String>>() { //line 43
@Override
public List<String> call(String s) {
return Arrays.asList(s.split("\\s*,\\s*"));
}
});
words.saveAsTextFile(csvOutput);
}
}
这应该分割线并返回ArrayList。但是我不确定。
我收到此错误:
SimpleApp.java:[43,58] wrong number of type arguments; required 2
最佳答案
所以这个程序有两个小问题。首先,您可能想要 flatMap 而不是 map,因为您试图返回单词的 RDD 而不是单词列表的 RDD,我们可以使用 flatMap 来展平结果。另一个是,我们的函数类还需要调用它的输入的类型。我会用以下内容替换 JavaRDD 词...:
JavaRDD<String> words = rdd.flatMap(
new FlatMapFunction<String, String>() { public Iterable<String> call(String s) {
return Arrays.asList(s.split("\\s*,\\s*"));
}});
关于java - 如何在带有 Java 的 SPARK 中使用映射函数,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/26817940/