我从postgresql数据库中检索了一堆文本记录,并打算在分析这些文本文档之前对它们进行预处理。
我想标记文档,但在标记过程中遇到了一些问题
#some other bunch of regex replacements
#toToken is the text string
toTokens = self.regexClitics1.sub(" \\1",toTokens)
toTokens = self.regexClitics2.sub(" \\1 \\2",toTokens)
toTokens = str.strip(toTokens)
这个错误是
TypeError: descriptor 'strip' requires a 'str' object but received a 'unicode'
我很好奇,当数据库的编码是UTF-8时,为什么会发生这个错误? 最佳答案
为什么不使用toTokens.strip()
。不需要str模块。
Python、str和unicode中有两种字符串类型。查看this以获取解释。