将熊猫用于大型数据集,而我已经将其简化为所需的信息。基本上,我想绘制两个不同国家/地区的用户的并列箱形图(我指的是成组箱形图)的朋友数量分布,并根据他们帖子中使用的#标签数量(范围从1- 6,我将其视为分类变量)。这样一来,总共2 * 6 = 12个箱形图全部位于同一帧中,以便于比较。

我已经进行了一些研究,并且知道df.boxplot(by ='x'),但这并不能说明比较这两个国家的额外水平。

数据集包含用于标签数(int),国家(字符串),朋友数(int)的列。

值得一提的是,我对使用Python进行绘图还是相当陌生,包括轴和子图等内容,因此,请尽可能在答案中包含一些额外信息。

编辑:数据集的小样本

       #followers  #friends  #mentions  #hashtags  country  lang_user place
450            53        71          1          0       ja         es   NaN
489            54        34          1          1       ja         es   NaN
867          1569      1999          0          0       en         es   NaN
1021          224       242          0          3       ja         ja   NaN
1022          377       506          1          5       ja         ja   NaN
1023          315       305          0          2       ja         ja   NaN

最佳答案

我喜欢使用seaborn进行这种可视化。
我猜你的意思是“额外水平”被称为“色相”。

import seaborn as sns
sns.set_style("whitegrid")
tips = sns.load_dataset("tips")
ax = sns.boxplot(x="day", y="total_bill", hue="smoker",
data=tips, palette="Set3")


结果将是:
python - 按类别变量分组框线图-LMLPHP

查看此文档:
https://seaborn.pydata.org/generated/seaborn.boxplot.html

关于python - 按类别变量分组框线图,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/49999166/

10-12 22:47