考虑我有一个名为customer_table的表,数据作为列族,现在有一个文本文件,如下所示:
custno,firstname,lastname,age,profession
(这些是列名,不存在于文本或csv文件中)

1,John,Wright,54,Coach
2,Luke,,20,Student
3,Mike,Jordan,26,
4,William,Jones,21,Teacher

在第二行和第三行中,该列的姓氏和专业没有值。

现在我要
STORE variable INTO 'hbase://customer_table' USING org.apache.pig.backend.hadoop.hbase.HBaseStorage()

仅排除特定行的那些列(没有数据或只有空格)。请让我知道如何完成此操作。

最佳答案

您可以在foreach ... generate语句中使用嵌套的biconditionals。另一种选择是使用UDF。

请注意,无论哪种方式,您都会丢失一个模式,因此您的字段将是无名的,值将是pig中的字节数组。我个人从未尝试将此类行写入hbase。因此,不知道它们的外观,以及如何访问它们。我希望您有充分的理由要做这样的事情。

10-07 19:15
查看更多