通过此链接,我发现Google Cloud Dataflow为其工作人员使用Docker容器:Image for Google Cloud Dataflow instances
我看到有可能找出docker容器的镜像名称。
但是,有没有一种方法可以获取此docker容器(即我要从哪个存储库中获取它),对其进行修改,然后指示我的Dataflow作业使用此新的docker容器?
我问的原因是我们需要在docker上安装各种C++和Fortran以及其他库代码,以便Dataflow作业可以调用它们,但是这些安装非常耗时,因此我们不想使用“resource”属性df中的选项。
最佳答案
2020年5月更新
自定义容器仅在Beam可移植性框架内受支持。
当前在可移植性框架内启动的管道必须显式地传递--experiments=beam_fn_api
(用户提供的标志)或隐式地传递ojit_code(例如,所有Python流式管道都通过ojit_code)。
一旦DataflowRunner完全支持自定义容器,将有更多有关Dataflow的文档。有关其他Beam流道中自定义容器的支持,请参见:http://beam.apache.org/documentation/runtime/environments。
用于Dataflow工作人员的docker容器当前为私有(private)容器,无法修改或自定义。
实际上,它们是从私有(private)Docker存储库提供的,因此我认为您无法将它们安装在计算机上。
关于google-cloud-dataflow - 在Dataflow中使用自定义Docker容器,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/44465818/