我是hadoop的新手,正在从事一个大数据项目,我必须清理和过滤给定的csv文件。
就像给定的csv文件有200列一样,那么我只需要选择20个特定的列(所谓的数据过滤)作为进一步操作的输出即可。
同样作为数据清理的一部分,我必须检查日期列的日期格式是否正确,并将所有格式更改为DD-MM-YYYY等单一格式。

到目前为止,我已经能够读取给定的文件,但是请您提出建议,如如何选择特定的列以及有关检查日期格式的建议?

最佳答案

您也可以使用Apache Pig进行过滤和验证日期格式。请按照以下步骤操作:

  • 将文件复制到HDFS中
  • 使用load命令和pigStorage()加载文件。
  • 使用ForEach语句选择20列(您可以仅提供列名称/数字,例如$ 0,$ 3,$ 5..etc)
  • 编写UDF以验证日期格式(Ref-http://www.crackinghadoop.com/pig-java-udf-validate-date-format/)
  • 使用“商店”存储您过滤的输出。
  • 10-02 05:16
    查看更多