Closed. This question needs to be more focused。它当前不接受答案。












想改善这个问题吗?更新问题,使其仅关注editing this post一个问题。

4年前关闭。



Improve this question




我最近发现了Dask。我对Dask Dataframe和其他数据结构有非常基本的问题。
  • Dask Dataframe是不可变的数据类型吗?
  • Dask数组和Dataframe是惰性数据结构吗?

  • 我不知道是针对我的情况使用dask还是spark或pandas。我有200 GB的数据要计算。使用普通的python程序花费了9个小时来计算操作。但是通过利用16核处理器,它可以在较短的时间内并行处理。如果我将数据框划分为大 Pandas ,则需要担心计算的可交换性和关联性。另一方面,我可以使用独立的Spark集群来拆分数据并并行运行。

    我需要像在Spark中一样在Dask中设置任何集群吗?
    如何在我自己的计算节点中运行Dask数据帧?
    Dask是否需要主从设置?

    我是大 Pandas 的粉丝,所以我正在寻找与大 Pandas 类似的解决方案。

    最佳答案

    这里似乎有几个问题

    问:Dask.dataframes是不可变的吗?

    不严格。它们支持列分配。通常,尽管您是正确的,但不支持 Pandas 的大多数变异操作

    问:Dask.dataframe和Dask.array懒吗?



    问:我需要设置集群吗?

    不,您可以选择在群集或单台计算机上运行Dask。

    问:如果要使用群集,该怎么做?

    请参阅Dask.distributed特别是setup docs的文档

    问:我应该使用Dask,Spark或Pandas吗?

    这个问题过于笼统,取决于情况

    关于dask - 如何在多台机器上运行dask? ,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/39439408/

    10-13 05:45