apache-spark - emrfs同步和导入卡住了，无法正常工作

在使用s3源运行spark作业时以及运行emrfs sync或emrfs import时，我不断收到不稳定错误。它运行了一定的时间(增加了10624 s3key)，只是卡住了。另外，Spark读取不会运行，并且在等待几分钟后会引发不一致错误/异常。知道为什么会发生这种情况以及如何避免该问题吗？

用例:从s3读取大约20TB的数据，并执行排序和窗口操作。

执行的 Action :

emrfs delete-元数据名称EmrFSMetaTbl s3:// bucket / prefix-to-read /

emrfs import-元数据名称EmrFSMetaTbl s3:// bucket / prefix-to-read /

尝试删除元数据表，但仍然出现不一致错误。
我已经尝试过Emrfs file sync with s3 not working中给出的方法

最佳答案

当您从S3删除大量文件(我的文件几乎是数百万个很小的文件)时，使用以下命令将文件结构的元数据与DynamoDB同步，就会发生此问题。可以在URL中查看其他命令

emrfs sync s3://elasticmapreduce/samples/cloudfront

如果此问题不断发生，请创建一个新集群并删除EMRFS dynamoDB表。这解决了我的问题

关于apache-spark - emrfs同步和导入卡住了，无法正常工作，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/58944394/