默认情况下,Dask DataFrame的describe方法仅汇总数字列。根据docs,我应该能够通过提供include参数来获得分类列的描述。然而
df.describe(include=['category']).compute()
导致
TypeError: describe() got an unexpected keyword argument 'include'

我也尝试了一些不同的方法:
df.select_dtypes(include=['category']).describe().compute()
这次我得到了
ValueError: DataFrame contains only non-numeric data.
您能否建议在Dask DataFrame中汇总类别列的最佳方法是什么?

最佳答案

仅汇总数字或对象列

  • 要仅在数字列上调用describe(),请使用
    describe(include = [np.number])
  • 使用以下命令仅对对象(字符串)调用describe()
    describe(include = ['O'])。

  • 引用:Pandas 'describe' is not returning summary of all columns

    关于python - 汇总Dask DataFrame中的分类数据,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/48423164/

    10-16 16:10