我正在使用Julia TextAnalysis.jl包中的Naive Bayes分类器模型制作垃圾邮件分类器。
文本预处理functions(例如remove_corrupt_utf8!(sd)
,其中sd
是StringDocument
)只能应用于Document类型(特定于包),而不能应用于string
类型。
有什么办法可以将StringDocument
转换回字符串,然后重新放入dataframe
。
当前代码:
#global messageLis = []
for row in eachrow(data)
message = row.v2
#push!(messageLis, message)
StringDoc = StringDocument(message)
remove_corrupt_utf8!(StringDoc) #to remove the corrupt characters (if any) in the message so that model doesnt fail
#convert StringDoc back into a string so that text is preprocessed from the dataframe itself.
end
任何帮助,将不胜感激。
最佳答案
使用 text
访问处理后的字符串:
julia> str = StringDocument("here are some punctuations !!!...");
julia> prepare!(str, strip_punctuation)
julia> text(str)
"here are some punctuations "
关于nlp - 我可以将StringDocument <Type>还原回字符串吗? (TextAnalysis.jl),我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/59920522/