使用PHP将ISO-8859-1数据库内容转换为UTF-8时遇到一些问题。我正在运行以下代码进行测试:
// Connect to a latin1 charset database
// and retrieve "Georgia O’Keeffe", which contains a "’" character
$connection = mysql_connect('*****', '*****', '*****');
mysql_select_db('*****', $connection);
mysql_set_charset('latin1', $connection);
$result = mysql_query('SELECT notes FROM categories WHERE id = 16', $connection);
$latin1Str = mysql_result($result, 0);
$latin1Str = substr($latin1Str, strpos($latin1Str, 'Georgia'), 16);
// Try to convert it to UTF-8
$utf8Str = iconv('ISO-8859-1', 'UTF-8', $latin1Str);
// Output both
var_dump($latin1Str);
var_dump($utf8Str);
当我在Firefox的源代码 View 中运行此代码时,确保将Firefox的编码设置设置为“西方(ISO-8859-1)”,我得到以下信息:
到现在为止还挺好。第一个输出包含该奇怪的引号,我可以正确看到它,因为它在ISO-8859-1中,Firefox也是如此。
在将Firefox的编码设置更改为“UTF-8”之后,它看起来像这样:
报价去哪儿了?
iconv()
是否应该将其转换为UTF-8? 最佳答案
U + 2019右单引号不是ISO-8859-1中的字符。它是windows-1252中的一个字符,为0x92。实际的ISO-8859-1字符0x92是一种很少使用的C1 control character,称为“私有(private)使用2”。
看来这就是这里正在发生的事情。将“ISO-8859-1”更改为“windows-1252”。
关于PHP:将 "’“字符从ISO-8859-1转换为UTF-8时出现问题,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/3714061/