在使用s3源运行spark作业时以及运行emrfs sync或emrfs import时,我不断收到不稳定错误。它运行了一定的时间(增加了10624 s3key),只是卡住了。另外,Spark读取不会运行,并且在等待几分钟后会引发不一致错误/异常。知道为什么会发生这种情况以及如何避免该问题吗?

用例:从s3读取大约20TB的数据,并执行排序和窗口操作。

执行的 Action :

emrfs delete-元数据名称EmrFSMetaTbl s3:// bucket / prefix-to-read /

emrfs import-元数据名称EmrFSMetaTbl s3:// bucket / prefix-to-read /

尝试删除元数据表,但仍然出现不一致错误。
我已经尝试过Emrfs file sync with s3 not working中给出的方法

最佳答案

当您从S3删除大量文件(我的文件几乎是数百万个很小的文件)时,使用以下命令将文件结构的元数据与DynamoDB同步,就会发生此问题。可以在URL中查看其他命令

emrfs sync s3://elasticmapreduce/samples/cloudfront
如果此问题不断发生,请创建一个新集群并删除EMRFS dynamoDB表。这解决了我的问题

关于apache-spark - emrfs同步和导入卡住了,无法正常工作,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/58944394/

10-16 02:50