我在下面创建了一个脚本,用于将unicode转换为汉字,temp.df[,"name_unicode"]
中的最后一个字符串是“§®£”(不带引号),这样,不懂中文的人也可以提供帮助。
library(RODBC)
library(Unicode)
temp.df <- data.frame(name_unicode=c("陳大文",
"陳小敏",
"陳一山",
"§®£"),
stringsAsFactors=FALSE)
temp.df[,"name_unicode_mod"] <- sapply(temp.df[,"name_unicode"],
function(x) {
temp <- unlist(strsplit(x,";"))
temp <- sprintf("%x",as.integer(gsub("[^0-9]","",temp)))
temp <- intToUtf8(as.u_char_range(temp))
return(temp)
})
write.csv(temp.df,file("test.csv",encoding="UTF-8"),row.names=FALSE)
对于R控制台,
temp.df[,"name_unicode_mod"]
的输出正常。但是我需要将它们以csv
或xls
格式导出。我在write.csv
中尝试了write.table
,odbcConnectExcel
,RODBC
,但都给了我类似<U+00A7><U+00AE><U+00A3>
的权限。有人可以帮忙吗?谢谢。
P.S.我正在使用R 3.0.0和Win7
最佳答案
使用二进制写将适合您的情况。
下面是一个小的示例代码。
writeUtf8csv <- function(x, file) {
con <- file(file, "wb")
apply(x, 1, function(a) {
b <- paste(paste(a, collapse=','), '\r\n', sep='')
writeBin(charToRaw(b), con, endian="little")
})
close(con)
}
this reference page中显示了更多详细信息。
关于r - R中的unicode转换和导出,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/16028658/