Flink 文档表明 Ceph 可以用作状态的持久存储。 https://ci.apache.org/projects/flink/flink-docs-release-1.3/dev/stream/checkpointing.html

考虑到 Ceph 是一个事务型数据库,它不会对 Flink 的性能产生不利影响吗?

最佳答案

Ceph 将自己描述为“统一的分布式存储系统”,并提供网络文件系统 API。因此,它应该与 Flink 的状态后端无缝协作,将检查点持久化到远程文件系统。

我不知道有人在使用 Ceph(HDFS 和 S3 更常用)并且没有关于性能的信息。但是需要注意的是,Flink 可以异步写入检查点,这样存储系统的性能不会影响 Flink 应用程序的处理速度。但是,它可能会限制执行检查点的时间间隔。

更新:
(2018 年 2 月)我注意到多个用户在 Flink 的用户邮件列表中报告说他们正在使用 Ceph 和 Flink。

更新 2:
Flink 在 S3 协议(protocol)上运行良好,并且两个( Presto & Hadoop )Flink 的 S3 FileSystem 插件都运行良好。

关于apache-flink - Flink 使用 Ceph 作为持久化存储,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/47652024/

10-15 20:25