在Apache Spark中,操作主要分为两类:转换(Transformations)和行动(Actions)。这些操作定义了如何处理RDD(弹性分布式数据集)。
转换操作(Transformations)
转换操作是应用于RDD的操作,它们创建一个新的RDD。转换操作是懒惰的,也就是说,它们不会立即计算结果,而是在触发行动操作时才计算。一些常见的转换操作包括:
- map:对RDD中的每个元素应用一个函数,返回一个新的RDD。
- filter:返回一个新的RDD,包含通过给定函数测试的元素。
- flat