在某些情况下语法(即大小写,拼写-PURPLE或PURPAL)错误时,如何使用Python将csv文件(50000行,下面的示例)中的颜色(蓝色,绿色,紫色,红色)分组?谢谢你提供的所有帮助

Blue      5642
Purpal    5640
red       5610
BLUE      5583
Red       5541
green     5523
Purple    5503
Green     5491
RED       5467
......

最佳答案

您将需要清理数据。显然,这对于您的数据所处的任何情况都是唯一的,但是如果您尝试识别拼写错误的颜色名称,则可以过滤DataFrame以显示不是蓝色,绿色,紫色或红色的所有内容。

您可以执行以下操作来识别不匹配的内容,然后找出解决方法。

df.Color = df.Color.str.lower()
colors = ['blue', 'red', 'purple', 'green']
misspellings = df.Color[~df.Color.isin(colors)].values
print(misspellings)
['purpal']


从那里,您可以单独修复每个条目,也可以编写一些内容来智能地修复它们。这取决于您,但是一旦完成,您就可以正常分组。要修复“紫色”条目,您可以执行以下操作:

df.loc[df.Color == 'purpal', 'Color'] = 'purple'

关于python - 当语法(即,PURPLE或PURPAL)错误时,如何从csv文件中对颜色(蓝色,绿色,紫色,红色)进行分组?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/43412730/

10-09 07:51