Pandas部分字符串匹配

Pandas部分字符串匹配

我创建了一个数据框df,其中有一个包含以下值的列:

category
20150115_Holiday_HK_Misc
20150115_Holiday_SG_Misc
20140116_DE_ProductFocus
20140116_UK_ProductFocus


我想创建3个新列

category                  |           A              |  B  |       C
20150115_Holiday_HK_Misc     20150115_Holiday_Misc     HK    Holiday_Misc
20150115_Holiday_SG_Misc     20150115_Holiday_Misc     SG    Holiday_Misc
20140116_DE_ProductFocus     20140116_ProductFocus     DE    ProductFocus
20140116_UK_ProductFocus     20140116_ProductFocus     UK    ProductFocus


在A栏中,我想删除“ _HK”-我想我需要手动对此进行编码,但是这很好,我具有所有国家/地区代码的列表

在B列中,就是那个国家/地区代码

C列是A列,开头没有日期

我正在尝试类似的方法,但没有走得太远。

 df['B'] = np.where([df['category'].str.contains("HK")==True], 'HK', 'Not Specified')


谢谢

最佳答案

您可以使用Series.str.extract()方法:

# remove two characters (Country Code) surrounded by '_'
df['A'] = df.category.str.replace(r'_\w{2}_', '_')
# extract two characters (Country Code) surrounded by '_'
df['B'] = df.category.str.extract(r'_(\w{2})_', expand=False)
df['C'] = df.A.str.extract(r'\d+_(.*)', expand=False)


结果:

In [148]: df
Out[148]:
                   category                      A   B             C
0  20150115_Holiday_HK_Misc  20150115_Holiday_Misc  HK  Holiday_Misc
1  20150115_Holiday_SG_Misc  20150115_Holiday_Misc  SG  Holiday_Misc
2  20140116_DE_ProductFocus  20140116_ProductFocus  DE  ProductFocus
3  20140116_UK_ProductFocus  20140116_ProductFocus  UK  ProductFocus

关于python - Python Pandas部分字符串匹配,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42446916/

10-12 21:44