我正在使用Julia TextAnalysis.jl包中的Naive Bayes分类器模型制作垃圾邮件分类器。

文本预处理functions(例如remove_corrupt_utf8!(sd),其中sdStringDocument)只能应用于Document类型(特定于包),而不能应用于string类型。

有什么办法可以将StringDocument转换回字符串,然后重新放入dataframe

当前代码:

#global messageLis = []
for row in eachrow(data)
    message = row.v2
    #push!(messageLis, message)
    StringDoc = StringDocument(message)
    remove_corrupt_utf8!(StringDoc) #to remove the corrupt characters (if any) in the message so that model doesnt fail
    #convert StringDoc back into a string so that text is preprocessed from the dataframe itself.
end

任何帮助,将不胜感激。

最佳答案

使用 text 访问处理后的字符串:

julia> str = StringDocument("here are some punctuations !!!...");

julia> prepare!(str, strip_punctuation)

julia> text(str)
"here are some punctuations "

关于nlp - 我可以将StringDocument <Type>还原回字符串吗? (TextAnalysis.jl),我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/59920522/

10-10 14:34