我是hadoop的新手,正在从事一个大数据项目,我必须清理和过滤给定的csv文件。
就像给定的csv文件有200列一样,那么我只需要选择20个特定的列(所谓的数据过滤)作为进一步操作的输出即可。
同样作为数据清理的一部分,我必须检查日期列的日期格式是否正确,并将所有格式更改为DD-MM-YYYY等单一格式。
到目前为止,我已经能够读取给定的文件,但是请您提出建议,如如何选择特定的列以及有关检查日期格式的建议?
最佳答案
您也可以使用Apache Pig进行过滤和验证日期格式。请按照以下步骤操作: