在某些情况下语法(即大小写,拼写-PURPLE或PURPAL)错误时,如何使用Python将csv文件(50000行,下面的示例)中的颜色(蓝色,绿色,紫色,红色)分组?谢谢你提供的所有帮助
Blue 5642
Purpal 5640
red 5610
BLUE 5583
Red 5541
green 5523
Purple 5503
Green 5491
RED 5467
......
最佳答案
您将需要清理数据。显然,这对于您的数据所处的任何情况都是唯一的,但是如果您尝试识别拼写错误的颜色名称,则可以过滤DataFrame以显示不是蓝色,绿色,紫色或红色的所有内容。
您可以执行以下操作来识别不匹配的内容,然后找出解决方法。
df.Color = df.Color.str.lower()
colors = ['blue', 'red', 'purple', 'green']
misspellings = df.Color[~df.Color.isin(colors)].values
print(misspellings)
['purpal']
从那里,您可以单独修复每个条目,也可以编写一些内容来智能地修复它们。这取决于您,但是一旦完成,您就可以正常分组。要修复“紫色”条目,您可以执行以下操作:
df.loc[df.Color == 'purpal', 'Color'] = 'purple'
关于python - 当语法(即,PURPLE或PURPAL)错误时,如何从csv文件中对颜色(蓝色,绿色,紫色,红色)进行分组?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/43412730/