是否有一种方法可以从执行计划或以其他方式确定运行作业所需的任务插槽总数,而不必先真正开始作业。

根据此文档:https://ci.apache.org/projects/flink/flink-docs-stable/concepts/runtime.html


“ Flink集群所需的任务插槽与作业中使用的最高并行度恰好一样。无需计算一个程序总共包含多少个任务(具有不同的并行度)。”


如果我从StreamExecutionEnvironment获取执行计划(设置后但未实际执行作业),并从执行计划json的节点列表中获取任何节点的最大并行度,那么这足以确定所需的任务插槽数量运行工作。

是否有任何情况不再如此?还是要注意任何警告?

最佳答案

在通常情况下,可以通过以下方式计算给定Flink作业所需的插槽数:对于每个slot sharing group g(表示可以部署到同一插槽的一组操作员),需要查找具有最大并行度p_max_g的运算符。现在,需要为作业slots = sum_(g in G) p_max_g中的每个插槽共享组增加这些编号,以便获得所需的插槽数量。

在大多数情况下(如果用户未设置任何插槽共享组),则应该仅存在一个插槽共享组G = {g}。这使得Flink可以将每个操作员的一个子任务部署到一个相同的插槽中。

一种特殊情况是批处理作业(绑定流),如果它们使用阻塞数据交换。在这种情况下,一个接一个地可以依次运行不同的插槽共享组(假设它们与阻塞数据交换/操作员边缘对齐)。

不幸的是,ExecutionEnvironment.getExecutionPlan不打印操作员的插槽共享组。因此,仅在存在单个插槽共享组的情况下,才根据字符串化的执行计划计算所需的插槽数。

10-06 13:06
查看更多