Dask | Modin | Data.table的基本区别和主要用例是什么
我查看了每个库的文档,它们似乎都提供了一个解决熊猫限制的“类似”解决方案
最佳答案
我正试图决定学习哪种工具来进行并行/内存不足计算:dask
,modin
或datatable
(pandas
不是并行工具,也不是针对内存不足计算)。
没有在datatable
文档中找到任何内存不足的工具(已讨论过here),因此我只关注modin
和dask
。
简言之,modin
试图成为pandas
api的替代品,而dask
则被延迟评估。modin
是一个列存储,而dask
按行划分数据帧。dask
后面的分发引擎是集中式的,而modin
后面的分发引擎(称为ray
)不是集中式的。dask
是第一个,拥有庞大的生态系统,看起来有很好的文档记录、论坛讨论和视频演示modin
(ray
)有一些设计选择,允许它在硬件错误和高性能串行化方面更灵活。ray
的目标是在人工智能研究中最有用,但modin
本身是通用的。ray
还针对实时应用程序,以更好地支持实时强化学习。
更多细节here和here。