我需要对 Databricks DBFS 进行一些说明。
用简单的基本术语来说,它是什么,它的目的是什么,它允许我做什么?
databricks 上的文档对此进行了说明。
“DBFS 中的文件会保留在 Azure Blob 存储中,因此即使在终止群集后也不会丢失数据。”
任何见解都会有所帮助,但无法找到从架构和使用角度深入了解其细节的文档
最佳答案
我有使用 DBFS 的经验,它是一个很好的存储,它保存了您可以使用 DBFS CLI 从本地计算机上传的数据! CLI setup 有点棘手,但是当您管理时,您可以轻松地在此环境中移动整个文件夹(记住使用 -overwrite!)
使用 Scala,您可以使用如下代码轻松提取存储在此存储中的数据:
val df1 = spark
.read
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("dbfs:/foldername/test.csv")
.select(some_column_name)
或读取整个文件夹以处理所有可用的 csv 文件:
val df1 = spark
.read
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("dbfs:/foldername/*.csv")
.select(some_column_name)
我认为它易于使用和学习,希望这些信息对您有所帮助!