我有一个孟加拉语的excel文件。要正确显示孟加拉语文本,我需要在电脑上安装孟加拉语字体。
我使用office 2010将excel文件转换为csv。但它只显示“?”标记而不是孟加拉语字符。然后我使用google文档进行转换,也遇到了同样的问题,但是使用了不可读的字符,而不是'?'我将从该文件中提取的内容粘贴到一个HTML文件中,并试图在浏览器中查看失败。
如何从孟加拉文的.xlsx文件获取csv文件,以便将其导入mysql数据库?
编辑:在this SO问题中接受的答案让我转到google docs。
最佳答案
根据对问题Excel to CSV with UTF8 encoding的回答,google docs应该正确地保存csv,而不是excel,它会销毁所有在使用的“ansi”编码中不可表示的字符。但也许他们改变了这一点,或者出了什么问题,或者对形势的分析是不正确的。
对于在ms-office程序中处理的正确编码的孟加拉语(孟加拉语),不需要任何“孟加拉语字体”,因为arial-unicode ms字体(随office提供)包含孟加拉语字符。那么,数据实际上是不是在某种非标准的编码中,依赖于一种特殊编码的字体?在这种情况下,应该首先将其转换为Unicode,尽管可能可以使用始终使用该特定字体的程序以某种方式对其进行管理。
在Excel中,使用“另存为”时,可以选择“Unicode文本(.txt)”。它以utf-16编码将数据保存为tsv(制表符分隔值)。然后,您可能需要将其转换为使用逗号而不是制表符,和/或从utf-16转换为utf-8。但这只有在原始数据正确编码的情况下才有效。