我最近开始使用 Azure Databricks 并与在 HDInsight 上运行的 Jupyter Notebooks 进行比较。我四处搜索并阅读文档,试图了解如何让 ADBricks 使用 VSTS git 进行源代码控制。但是,我还没有找到有效的解决方案。
我找到了使用其他 git 提供程序的说明,但我想清楚这不是此用例的选项,因此请避免使用这些类型的响应。
HDInsight 有类似的限制,但我可以通过 ssh/rsync 解决,这很好,因为我正在部署到远程服务器,与构建相同,并且能够以与构建相同的方式进行蓝/绿部署等.
对于 ADBricks,按需集群是惊人的,但假设您正在“集群上”的 Notebooks 中进行开发,并且实际上您处于持续交付模式。这对我来说很好(除了不够充分的高延迟笔记本开发),但我仍然需要定期自动将代码获取到 VSTS 以保存状态/备份,就像一个优秀的编码员应该:)。
最佳答案
通常,对于 Azure Databricks 中的完整 CI/CD,我们使用工作区 API 将整个笔记本或目录从 Databricks pull 和推送到用户的本地计算机或构建服务器。 https://docs.azuredatabricks.net/api/latest/workspace.html
Databricks 还有一个 CLI,它利用工作区 API 来执行更简单、更高级的命令:https://docs.azuredatabricks.net/user-guide/dev-tools/databricks-cli.html
其工作流程如下所示:
这是来自 Databricks 的博客,其中详细介绍了:https://databricks.com/blog/2017/10/30/continuous-integration-continuous-delivery-databricks.html
关于git - 如何配置 Azure Databricks 以使用 VSTS 进行源代码控制,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/50662044/