Closed. This question needs to be more focused。它当前不接受答案。
想改善这个问题吗?更新问题,使其仅关注editing this post一个问题。
4年前关闭。
Improve this question
我最近发现了Dask。我对Dask Dataframe和其他数据结构有非常基本的问题。
Dask Dataframe是不可变的数据类型吗? Dask数组和Dataframe是惰性数据结构吗?
我不知道是针对我的情况使用dask还是spark或pandas。我有200 GB的数据要计算。使用普通的python程序花费了9个小时来计算操作。但是通过利用16核处理器,它可以在较短的时间内并行处理。如果我将数据框划分为大 Pandas ,则需要担心计算的可交换性和关联性。另一方面,我可以使用独立的Spark集群来拆分数据并并行运行。
我需要像在Spark中一样在Dask中设置任何集群吗?
如何在我自己的计算节点中运行Dask数据帧?
Dask是否需要主从设置?
我是大 Pandas 的粉丝,所以我正在寻找与大 Pandas 类似的解决方案。
想改善这个问题吗?更新问题,使其仅关注editing this post一个问题。
4年前关闭。
Improve this question
我最近发现了Dask。我对Dask Dataframe和其他数据结构有非常基本的问题。
我不知道是针对我的情况使用dask还是spark或pandas。我有200 GB的数据要计算。使用普通的python程序花费了9个小时来计算操作。但是通过利用16核处理器,它可以在较短的时间内并行处理。如果我将数据框划分为大 Pandas ,则需要担心计算的可交换性和关联性。另一方面,我可以使用独立的Spark集群来拆分数据并并行运行。
我需要像在Spark中一样在Dask中设置任何集群吗?
如何在我自己的计算节点中运行Dask数据帧?
Dask是否需要主从设置?
我是大 Pandas 的粉丝,所以我正在寻找与大 Pandas 类似的解决方案。
最佳答案
这里似乎有几个问题
问:Dask.dataframes是不可变的吗?
不严格。它们支持列分配。通常,尽管您是正确的,但不支持 Pandas 的大多数变异操作
问:Dask.dataframe和Dask.array懒吗?
是
问:我需要设置集群吗?
不,您可以选择在群集或单台计算机上运行Dask。
问:如果要使用群集,该怎么做?
请参阅Dask.distributed特别是setup docs的文档
问:我应该使用Dask,Spark或Pandas吗?
这个问题过于笼统,取决于情况
关于dask - 如何在多台机器上运行dask? ,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/39439408/
10-13 05:45