将Scala Dataframe写入CSV文件时应用UTF8编码

本文介绍了将Scala Dataframe写入CSV文件时应用UTF8编码的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

将数据帧写入Spark2-Scala中的CSV文件时，如何正确应用UTF8编码?我正在使用这个:

How can I apply UTF8 encoding properly when writing a dataframe into a CSV file in Spark2-Scala? I am using this:

df.repartition(1).write.mode(SaveMode.Overwrite)
.format("csv").option("header", true).option("delimiter", "|")
.save(Path)

它不起作用:示例:将é替换为奇怪的字符串.

And it is not working: example: replacing é to weird strings.

谢谢.

推荐答案

因此@Hristo Iliev建议我需要使用以下方法强制进行UTF编码:

So as @Hristo Iliev suggested I needed to force UTF encoding using:

df.repartition(1).write.mode(SaveMode.Overwrite)
.format("csv").option("header", true).option("encoding", "UTF-8").option("delimiter", "|")
.save(Path)

这篇关于将Scala Dataframe写入CSV文件时应用UTF8编码的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持！