我很难让ipcluster启动我要求的所有ipengine。它似乎是某种超时问题。我在具有192个处理器的Linux集群上使用IPython 2.0。我运行一个本地ipcontroller,并使用SSH在我的12个节点上启动ipengine。这不是配置问题(至少我不认为是),因为我在运行约110个ipengine时没有问题。当我尝试更大的使用量时,其中一些似乎在启动时就死了,而我的确表示其中的一些-我的最终数字略有不同。 ipcluster报告所有引擎已启动。在某些ipengine日志中,我能找到的唯一麻烦标志(除了未使用所有请求的引擎外):

2014-06-20 16:42:13.302 [IPEngineApp] Loading url_file u'.ipython/profile_ssh/security/ipcontroller-engine.json'
2014-06-20 16:42:13.335 [IPEngineApp] Registering with controller at tcp://10.1.0.253:55576
2014-06-20 16:42:13.429 [IPEngineApp] Starting to monitor the heartbeat signal from the hub every 3010 ms.
2014-06-20 16:42:13.434 [IPEngineApp] Using existing profile dir: u'.ipython/profile_ssh'
2014-06-20 16:42:13.436 [IPEngineApp] Completed registration with id 49
2014-06-20 16:42:25.472 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).
2014-06-20 18:09:12.782 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).
2014-06-20 19:14:22.760 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).
2014-06-20 20:00:34.969 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).

我做了一些谷歌搜索,看看是否可以找到一些智慧,而我遇到的唯一一件事就是http://permalink.gmane.org/gmane.comp.python.ipython.devel/12228。作者似乎认为这有点超时。

我也尝试将IPClusterStart.early_shutdown和IPClusterEngines.early_shutdown时间提高了三倍(与默认的30秒相比,是90秒),但是没有任何运气。

在此先感谢您提供有关充分利用我的集群的任何建议。

最佳答案

当我尝试执行ipcluster start --n = 200时,我得到:OSError:[Errno 24]打开的文件太多
这也可能会发生在您身上。尝试提高操作系统的打开文件限制。

09-18 19:34