这似乎是很容易的任务,但我无法使代码正常工作。

我只是想清理表格中的推文回复,并使用kaggle上的jupyter笔记本仅保留字母

不管我使用什么代码,事情都不会发生

我尝试了以下方法:

pattern=re.compile('\[].\\n')
dfreplies.Replies.str.replace(pattern, '',regex=True)


实际结果的一个示例是:

dfreplies.Replies
>>>     Replies
0       [I need \n, [[#] a soda please]
1       [bla bla + but nice hair, [[@],]
2       [Great idea https://www.music.pe, follow us]


我预计

>>>     Replies
0       I need a soda please
1       bla bla but nice hair
2       Great idea, follow us

最佳答案

根据您的预期输出,您需要一个更复杂的替代产品,如下所示:

In [256]: df['Replies'].str.replace(r'([\[\]#+@]+|\\n),?\s*|\s*https?://[^\s,]+', '', regex=True)
Out[256]:
0       I need a soda please
1    bla bla but nice hair,
2      Great idea, follow us
Name: Replies, dtype: object

关于python - 如何使用str.replace清理列的每一行,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/57732600/

10-12 20:17