hadoop - Apache Spark如何知道HDFS数据节点？ | Spark

Spark

javascript - 将输入转换为jQuery中的链接

python - Python的守护程序PPID不等于1

regex - 重命名文件-在文件名内将 'yyyyMMdd'转换为 'MMM-yy'

c# - 为空对象提供方法返回值是否有用？

python - 哈希表中的CSV，然后计算总和

android - 我第一次使用react-native run-android时遇到了困难。错误如下所示

spring - 如何在HandlerInterceptorAdapter中使用@ResponseBody记录Spring 3 Controller 的JSON响应？

java - 找不到MavenWrapperMain类，但包含在目录的.m2中

java - MongoCommandException:命令失败，错误8000(AtlasError):“未发送SNI名称，请确保使用MongoDB 3.4+驱动程序/shell。”

javascript - FireFox扩展:如何通过jQuery访问页面元素？

html - 在悬停时更改字体大小移动其他div

android - Root 设备上的Android Assets

android - 以编程方式在广播接收器中拨打电话

html - css透明形状在图像上

java - Java流计数操作，直到整数变为0

hadoop - Apache Spark如何知道HDFS数据节点？

扫码查看

想象一下，我对HDFS中托管的文件执行了一些Spark操作。像这样:

var file = sc.textFile("hdfs://...")
val items = file.map(_.split('\t'))
...

因为在Hadoop世界中，代码应该放在数据所在的位置，对吗？

所以我的问题是: Spark worker 如何知道 HDFS数据节点？ Spark如何知道在哪个数据节点上执行代码？

最佳答案

Spark重用Hadoop类:当您调用textFile时，它将创建一个具有getSplits方法(拆分大致是一个分区或块)的TextInputFormat，然后每个InputSplit都具有getLocations和getLocationInfo方法。

07-25 22:45