这似乎是很容易的任务,但我无法使代码正常工作。
我只是想清理表格中的推文回复,并使用kaggle上的jupyter笔记本仅保留字母
不管我使用什么代码,事情都不会发生
我尝试了以下方法:
pattern=re.compile('\[].\\n')
dfreplies.Replies.str.replace(pattern, '',regex=True)
实际结果的一个示例是:
dfreplies.Replies
>>> Replies
0 [I need \n, [[#] a soda please]
1 [bla bla + but nice hair, [[@],]
2 [Great idea https://www.music.pe, follow us]
我预计
>>> Replies
0 I need a soda please
1 bla bla but nice hair
2 Great idea, follow us
最佳答案
根据您的预期输出,您需要一个更复杂的替代产品,如下所示:
In [256]: df['Replies'].str.replace(r'([\[\]#+@]+|\\n),?\s*|\s*https?://[^\s,]+', '', regex=True)
Out[256]:
0 I need a soda please
1 bla bla but nice hair,
2 Great idea, follow us
Name: Replies, dtype: object
关于python - 如何使用str.replace清理列的每一行,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/57732600/