我有一个.csv,其中使用Encoding(data)时编码返回“unknown”和“UTF-8”。文本如下所示:
<U+1042><U+1040><U+1042><U+1040> <U+1019><U+103D><U+102C>\n\n<U+1010><U+102D><U+102F><U+1004><U+1039><U+1038><U+103B><U+1015><U+100A><U+1039><U+1000><U+102D><U+102F><U+101C><U+1032> <U+1000><U+102C><U+1000><U+103C>
我想将其转换为可读格式,在这种情况下为缅甸语言,因此看起来有点像这样:
၂၀၂၀မွာတိုင္းျ
奇怪的是,该数据中的文本以前在RStudio中是可读的,但是在某些时候-我不知道什么时候-这种情况发生了变化,现在我只能看到Unicode字符。我尝试了这些solutions,但没有成功。

最佳答案

您可以执行以下操作:

library(stringi)

string <- "<U+1042><U+1040><U+1042><U+1040> <U+1019><U+103D><U+102C>\n\n<U+1010><U+102D><U+102F><U+1004><U+1039><U+1038><U+103B><U+1015><U+100A><U+1039><U+1000><U+102D><U+102F><U+101C><U+1032> <U+1000><U+102C><U+1000><U+103C>"

cat(stri_unescape_unicode(gsub("<U\\+(....)>", "\\\\u\\1", string)))

结果是:

မှာ

ကာကွ

关于r - 将Unicode转换为R中的可读字符,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/49739800/

10-12 19:42