azure - 数据块 DBFS

我需要对 Databricks DBFS 进行一些说明。

用简单的基本术语来说，它是什么，它的目的是什么，它允许我做什么？

databricks 上的文档对此进行了说明。

“DBFS 中的文件会保留在 Azure Blob 存储中，因此即使在终止群集后也不会丢失数据。”

任何见解都会有所帮助，但无法找到从架构和使用角度深入了解其细节的文档

最佳答案

我有使用 DBFS 的经验，它是一个很好的存储，它保存了您可以使用 DBFS CLI 从本地计算机上传的数据! CLI setup 有点棘手，但是当您管理时，您可以轻松地在此环境中移动整个文件夹(记住使用 -overwrite!)

创建文件夹

上传文件

修改、删除文件和文件夹

使用 Scala，您可以使用如下代码轻松提取存储在此存储中的数据:

val df1 = spark
      .read
      .format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("dbfs:/foldername/test.csv")
      .select(some_column_name)

或读取整个文件夹以处理所有可用的 csv 文件:

val df1 = spark
      .read
      .format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("dbfs:/foldername/*.csv")
      .select(some_column_name)

我认为它易于使用和学习，希望这些信息对您有所帮助!