将熊猫用于大型数据集,而我已经将其简化为所需的信息。基本上,我想绘制两个不同国家/地区的用户的并列箱形图(我指的是成组箱形图)的朋友数量分布,并根据他们帖子中使用的#标签数量(范围从1- 6,我将其视为分类变量)。这样一来,总共2 * 6 = 12个箱形图全部位于同一帧中,以便于比较。
我已经进行了一些研究,并且知道df.boxplot(by ='x'),但这并不能说明比较这两个国家的额外水平。
数据集包含用于标签数(int),国家(字符串),朋友数(int)的列。
值得一提的是,我对使用Python进行绘图还是相当陌生,包括轴和子图等内容,因此,请尽可能在答案中包含一些额外信息。
编辑:数据集的小样本
#followers #friends #mentions #hashtags country lang_user place
450 53 71 1 0 ja es NaN
489 54 34 1 1 ja es NaN
867 1569 1999 0 0 en es NaN
1021 224 242 0 3 ja ja NaN
1022 377 506 1 5 ja ja NaN
1023 315 305 0 2 ja ja NaN
最佳答案
我喜欢使用seaborn进行这种可视化。
我猜你的意思是“额外水平”被称为“色相”。
import seaborn as sns
sns.set_style("whitegrid")
tips = sns.load_dataset("tips")
ax = sns.boxplot(x="day", y="total_bill", hue="smoker",
data=tips, palette="Set3")
结果将是:
查看此文档:
https://seaborn.pydata.org/generated/seaborn.boxplot.html
关于python - 按类别变量分组框线图,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/49999166/