我从postgresql数据库中检索了一堆文本记录,并打算在分析这些文本文档之前对它们进行预处理。
我想标记文档,但在标记过程中遇到了一些问题

    #some other bunch of regex replacements
    #toToken is the text string
    toTokens = self.regexClitics1.sub(" \\1",toTokens)
    toTokens = self.regexClitics2.sub(" \\1 \\2",toTokens)

    toTokens = str.strip(toTokens)

这个错误是TypeError: descriptor 'strip' requires a 'str' object but received a 'unicode'我很好奇,当数据库的编码是UTF-8时,为什么会发生这个错误?

最佳答案

为什么不使用toTokens.strip()。不需要str模块。
Python、str和unicode中有两种字符串类型。查看this以获取解释。

09-05 00:41