我正在尝试在Mac上的Pig Shell上读取csv文件。我正在做的只是将文件load到变量中,然后dump变量。这是我的做法:

movies = LOAD '/user/myhome/movies_data.csv' USING PigStorage(',') as (id,name,year,rating,duration);
DUMP movies;

我正在使用的数据是从here提供的github下载的

我的Mac上本地安装的hdfs中提供了此文件。当我执行dump时出现错误:



当我运行该作业时点击应用程序集群链接时,出现以下异常:



Pig版本是0.15.0,Hadoop版本是2.6.1。我在这里想念什么吗?

最佳答案

您可以使用来自piggybank的CSVLoader。如果没有可用的储钱 jar ,请注册并使用CSVLoader。这样的事情。

register '/your/path/to/piggybank/jar' ;
define CSVLoader org.apache.pig.piggybank.storage.CSVLoader();
movies = LOAD '/user/myhome/movies_data.csv' USING CSVLoader as (id,name,year,rating,duration);

关于hadoop - 使用Pig从CSV文件读取数据,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/32935007/

10-12 23:47