经过约14个工作小时后,我的Cloud Dataflow管道发生故障,并显示以下神秘日志消息:



我迅速浏览了一下 worker 的日志,也没有立即发现发生了什么。这些原因代码是否应该包含某些内容?

troubleshooting guide在这里也没有特别说明。我最好的猜测是,它属于“随机排序”类别(此作业的随机排序非常密集),但是日志中没有列出任何错误。

谢谢!

最佳答案

我通过错误ID查找了您的工作,似乎工作项由于内存不足错误而反复失败(不幸的是,Java进程被OOM杀手杀死了,不幸的是没有机会编写堆转储-搜索“oom -killer”中找到相关条目)。

不幸的是,我只能根据此信息提出建议,考虑使用更大的实例类型或优化转换的内存使用情况(例如,确保它们没有在内存中缓冲大量数据)。

10-02 08:41