scala - 如何在Spark中顺序处理两个RDD？ | RDD

RDD

css - 在Polymer中使用HTML-Tag中的属性

java - 二叉搜索树的迭代器不会在树上消失

python - 在Pygame中让 Sprite 跳

php - 简单的日期功能在php中不起作用

python - 只能使用if语句比较标记相同的Series对象错误-Python

java - 使用JavaFX播放QuickTime视频

php - 登录和注册系统

c# - 如何使用C#发送(keybd_event)Unicode key

java - Java的新手，想创建一个使对象成为对象的循环

android - 是否可以在ActionBar上使用TransitionDrawable？

javascript - Enter键上的AngularJS textarea换行符

python - Django on Appengine

android - 带有Kotlin的android中的setOnLongClickListener

android - 在Phonegap Android中，恢复出厂设置时UUID是否会更改

c++ - 调用基类的重载方法

scala - 如何在Spark中顺序处理两个RDD？

扫码查看

当我在Spark程序中达到资源限制时，我想将处理分为多个迭代，并将每个迭代的结果上传到HDFS，如下所示。

do something using first rdd
upload the output to hdfs

do something using second rdd
upload the output to hdfs

但据我所知，Spark将尝试并行运行这两个。有没有办法在处理第二个rdd之前等待第一个rdd的处理？

最佳答案

我想我知道您感到困惑的地方。在单个RDD中，分区将彼此并行运行。但是，两个RDD将彼此顺序运行(除非您另有编码)。

07-26 08:50