我正在尝试在Mac上的Pig Shell上读取csv文件。我正在做的只是将文件load
到变量中,然后dump
变量。这是我的做法:
movies = LOAD '/user/myhome/movies_data.csv' USING PigStorage(',') as (id,name,year,rating,duration);
DUMP movies;
我正在使用的数据是从here提供的github下载的
我的Mac上本地安装的hdfs中提供了此文件。当我执行
dump
时出现错误:当我运行该作业时点击应用程序集群链接时,出现以下异常:
Pig版本是0.15.0,Hadoop版本是2.6.1。我在这里想念什么吗?
最佳答案
您可以使用来自piggybank的CSVLoader。如果没有可用的储钱 jar ,请注册并使用CSVLoader。这样的事情。
register '/your/path/to/piggybank/jar' ;
define CSVLoader org.apache.pig.piggybank.storage.CSVLoader();
movies = LOAD '/user/myhome/movies_data.csv' USING CSVLoader as (id,name,year,rating,duration);
关于hadoop - 使用Pig从CSV文件读取数据,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/32935007/