Dask | Modin | Data.table的基本区别和主要用例是什么
我查看了每个库的文档,它们似乎都提供了一个解决熊猫限制的“类似”解决方案

最佳答案

我正试图决定学习哪种工具来进行并行/内存不足计算:daskmodindatatablepandas不是并行工具,也不是针对内存不足计算)。
没有在datatable文档中找到任何内存不足的工具(已讨论过here),因此我只关注modindask
简言之,modin试图成为pandasapi的替代品,而dask则被延迟评估。modin是一个列存储,而dask按行划分数据帧。dask后面的分发引擎是集中式的,而modin后面的分发引擎(称为ray)不是集中式的。
dask是第一个,拥有庞大的生态系统,看起来有很好的文档记录、论坛讨论和视频演示modinray)有一些设计选择,允许它在硬件错误和高性能串行化方面更灵活。ray的目标是在人工智能研究中最有用,但modin本身是通用的。ray还针对实时应用程序,以更好地支持实时强化学习。
更多细节herehere

08-25 05:34