开源数据湖三剑客 Apache hudi、Apache iceberg 、Databricks delta 近年来大动作不断。
2021年8月,Apache Iceberg 的创始人 Ryan Blue、Dan Weeks 和 Netflix 数据架构总监 Jason Reid 宣布从风投 a16z 处拿到了 A 轮融资,正式成立围绕 Apache Iceberg 构建新型数据平台的商业公司 Tabular。
2022年2月,Apache Hudi 也不甘示弱,创始人 Vinoth Chandar 发文官宣基于 Hudi 构建的商业公司和产品 Onehouse,其已经获得 Greylock Ventures 和 Addition 的 800 万美元种子轮投资。
2022年6月,Delta Lake 背后的大数据巨头公司 Databricks,也许是迫于 Iceberg、Hudi 的压力,也许是为了能抢占到市场, 宣布将 Delta Lake 云数据平台完全开源(即 Delta Lake 2.0)。
当开源扯上了商业,一切就都没有那么简单了,这三家之间的明争暗斗也随之拉开序幕。首先是 Databricks 在官宣 Delta Lake 2.0 时,把 Hudi 和 Iceberg 秒成了渣渣(如下图)。
接下来的剧本当然是 Apache Hudi 和 Apache Iceberg 不服,质疑测试的准确性。国内网易数帆的兄弟发表了《从 Delta 2.0 开始聊聊我们需要怎样的数据湖》,虽然言语看起来很客气,但是字里行间都是在反击,最后顺势推了一波数帆的开源产品 Arctic (底座是Iceberg)。Hudi 背后的公司 onehouse 也在第二天发表了一篇文章,质疑测试的准确性并给了他们测试的结果(如下图)。
事后 databricks 没有再回应,看来 databricks 的战略是只引战不恋战。
开源社区建设
2023年了,我们再来看看hudi iceberg delta2 三大社区的发展现状。首先看看截止到目前github的一些开源数据指标。
Github Star 数量,能反应出项目的知名度,目前来看 Delta Lake 是最高的,但是今年来看三者的差距在减小。
Github watchers 和 forks 数量,hudi 略高,整体上也是不相上下。
Github 贡献者数量,这个指标是2022年12月的贡献者数量和 commit 次数,hudi的优势较明显。
Github PR 和issue,同样是2022年12月的数据,PR是指贡献者提交的提案数量,issue是指贡献者提交的问题数量,是可以反映出项目活跃度的,Delta Lake 的活跃度明显低于 Iceberg 和 Hudi 很多。
贡献者所在公司分布
Apache Hudi
从这个分布图可以看出,Hudi 在国内的应用很广,包括国内的三个大厂阿里巴巴、腾讯、字节跳动,国外的话主要是 Uber 和 Amazon。
Apache Iceberg
Iceberg 在国内的厂商同样非常多,腾讯一马当先,是贡献者数量最多的团队,国内的字节 、网易也紧随其后,相比腾讯 Iceberg 和 Hudi 通吃的战略,阿里在 Iceberg 的投入就少了非常多,国外的贡献者也非常多,包括 Netflix、Apple 等等
Delta Lake
Delta 的开发者则主要以国外为主,作为母公司的 Databricks 贡献量稳居第一,微软紧随其后,国内的公司比较少见,仅京东、移动等几家有少来量的贡献。
从这些图中我们可以得到一些结论,似乎有大量国内公司参与的开源项目,活跃度都会相对比较高一些,且国内的大家对 Apache 基金会的项目热情会高一些。
特性对比
图来自于 ONEHOUSE 官网,所以可能偏向性会比较明显,仅供于参考。图更新于23年1月。
1. 读写特性
2. 表服务
3. 平台支持
2023 年,数据湖市场的争夺将正式进入白热化阶段,国内的开发者在这场争夺战中也将发挥着非常重要的作用,毕竟数据湖、湖仓一体等概念都已经被炒得火热,引入数据湖的公司在未来也会越来越多,数据湖的搭建、应用和开发能力也会逐渐成为大数据工程师的必备技能。在这之前,希望这篇文章能够帮助你做好 Hudi 、Iceberg、Delta Lake 这道选择题。