我需要对 Databricks DBFS 进行一些说明。

用简单的基本术语来说,它是什么,它的目的是什么,它允许我做什么?

databricks 上的文档对此进行了说明。

“DBFS 中的文件会保留在 Azure Blob 存储中,因此即使在终止群集后也不会丢失数据。”

任何见解都会有所帮助,但无法找到从架构和使用角度深入了解其细节的文档

最佳答案

我有使用 DBFS 的经验,它是一个很好的存储,它保存了您可以使用 DBFS CLI 从本地计算机上传的数据! CLI setup 有点棘手,但是当您管理时,您可以轻松地在此环境中移动整个文件夹(记住使用 -overwrite!)

  • 创建文件夹
  • 上传文件
  • 修改、删除文件和文件夹

  • 使用 Scala,您可以使用如下代码轻松提取存储在此存储中的数据:
    val df1 = spark
          .read
          .format("csv")
          .option("header", "true")
          .option("inferSchema", "true")
          .load("dbfs:/foldername/test.csv")
          .select(some_column_name)
    

    或读取整个文件夹以处理所有可用的 csv 文件:
    val df1 = spark
          .read
          .format("csv")
          .option("header", "true")
          .option("inferSchema", "true")
          .load("dbfs:/foldername/*.csv")
          .select(some_column_name)
    

    我认为它易于使用和学习,希望这些信息对您有所帮助!

    10-06 07:42