我有一个数据流,其中输入是从数据库中大量读取的。我想拆分此查询,并在作业开始时从多个主机执行该查询。据我所知,BoundedSource
无法直接控制输入拆分。它最接近的是splitIntoBundles
,这基本上意味着我必须开始非常昂贵的读取,并希望Dataflow取消它并使用我定义的捆绑包拆分。这似乎很疯狂,因此我希望有一种更好的方法来预定义可以在任何远程工作程序上运行的输入拆分。
最佳答案
经过大量研究,没有办法控制单个阅读器的拆分并行性。我的解决方案是创建多个读取器,让每个读取器读取自己的PCollection,然后将多个PCollection展平为单个PCollection。