我有以下txt文件,其中包含每个单词的POS(Part of Speech)标记。
不用说/jj/to/to/to/vb,/,I/ppss was/bedz furse/jj at/in this/dt无与伦比/jj intrusion/nn on/in free/jj enterprise/nn./。
如何/wrb dared/vbn他们/pps
是否有任何方法读取不带POS标签的文件,因此结果将是:
不用说,我对这种无以伦比的对自由企业的侵犯感到愤怒。
他们怎么敢
所以,基本上我想删除/之后的任何字符。

words = re.findall('\w+',open(input_file).read())

上述代码将删除/但仍会出现缩写,如jj、ppss。
那么,如何删除/后跟任何字符。

最佳答案

这够好吗?

>>> import re
>>> s = 'Needless/jj to/to say/vb ,/, I/ppss was/bedz furious/jj at/in this/dt unparalleled/jj intrusion/nn upon/in free/jj enterprise/nn ./.'
>>> re.sub(r'/[^\s]+','',s)
'Needless to say , I was furious at this unparalleled intrusion upon free enterprise .'

这只会删除任何以/开头的文本,直到找到空白。

关于python - PYTHON:从txt文件中删除POS标签,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/15365046/

10-12 22:43