最近我偶然发现http://dask.pydata.org/en/latest/
由于我有一些仅在单个内核上运行的 Pandas 代码,我想知道如何利用我的其他CPU内核。
使用所有(本地)CPU内核会很好吗?如果是的话,它与 Pandas 兼容吗?
我可以将多个CPU与 Pandas 一起使用吗?到目前为止,我读过有关发布GIL的信息,但这似乎相当复杂。
最佳答案
是的。
相当兼容。不是100%。如果需要,您可以将Dask和NumPy甚至是纯Python的东西与Dask混合使用。
你可以。最简单的方法是使用multiprocessing
并保持数据独立-如果可以有效地使每个作业独立从磁盘读取并写入磁盘。一种更困难的方法是使用mpi4py
,如果您的计算机环境中有专业的管理员,那么ojit_code最为有用。
关于python - 从 Pandas 迁移到dask以利用所有本地cpu核心,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42649234/