OSM数据以PBF格式提供。有专门的库(例如用于分析此数据的https://github.com/plasmap/geow)。
我想将此数据存储在S3上,并将其解析为RDD,作为EMR作业的一部分。
有什么简单的方法可以做到这一点?我可以将文件提取到主节点并在本地进行处理吗?如果是这样,我是否会创建一个空的RDD并在从输入文件中解析流事件时将其添加到其中?
最佳答案
一种解决方案是跳过PBF。 Parquet是一种Spark友好的表示形式。在this blog post中,显示了如何将PBF转换为Parquets,以及如何在Spark中加载数据。