如果我在HFDS或本地文件系统中有一个文件,是否可以在启用EMRFS的情况下将其复制到S3,立即关闭群集,并确保该文件可在列出和读取后立即提供给外部阅读器复制操作完成了吗?还是EMRFS仅在启用了该功能的特定EMR群集内保持一致?通过HDFS通过EMRFS将文件复制到S3会是什么样子?从本地文件系统?

最佳答案

我在AWS开发人员论坛https://forums.aws.amazon.com/thread.jspa?threadID=257220&tstart=25上问了同样的问题,它包含许多有值(value)的细节,并且比所有EMRFS文档组合的IMO提供了更好的EMRFS概述,但是我将提供崩溃摘要的崩溃摘要:

1)一致性 View 是必须在EMRFS配置中显式启用的功能,否则您只有S3一致性保证。

2)EMRFS一致 View 仅在共享相同EMRFS配置的集群中生效-对外部客户端正常访问S3无效

3)S3提供的唯一真正的一致性保证是保证之前从未写入的新文件对于读取而言是一致的,但对于列表而言则没有一致性。因此,如果客户端专门通过它知道是新创建的路径来请求文件,它将始终获得该文件,但是它可能会或可能不会在列表操作中获得文件的路径,并且该文件先前是否存在于此不能保证客户端将进行读取操作的版本。

关于hadoop - EMRFS是否使S3与外部客户端保持一致,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/44376707/

10-11 08:33