php - XSLT通过PHP的UTF-8编码问题

在通过PHP通过XSLT转换XML时，我遇到了一个令人讨厌的编码问题。

可以将问题总结如下:当我使用XSLT样式表复制(UTF-8编码)XHTML文件时，某些字符显示错误。当我只显示相同的XHTML文件时，所有字符均正确显示。

以下文件说明了该问题:

XHTML

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html
PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
    <head>
        <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
        <title>encoding test</title>
    </head>
    <body>
        <p>This is how we d&#239;&#223;&#960;&#955;&#509; &#145;special characters&#146;</p>
    </body>
</html>

XSLT

<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
    version="1.0">

    <xsl:output method="xml" encoding="UTF-8"/>

    <xsl:template match="@*|node()">
        <xsl:copy>
            <xsl:apply-templates select="@*|node()"/>
        </xsl:copy>
    </xsl:template>

</xsl:stylesheet>

的PHP

<?php
  $xml_file = 'encoding_test.xml';
  $xsl_file = 'encoding_test.xsl';

  $xml_doc = new DOMDocument('1.0', 'utf-8');
  $xml_doc->load($xml_file);

  $xsl_doc = new DOMDocument('1.0', 'utf-8');
  $xsl_doc->load($xsl_file);

  $xp = new XsltProcessor();
  $xp->importStylesheet($xsl_doc);

  // alllow to bypass XSLT transformation with bypass=true request parameter
  if ($bypass = $_GET['bypass']) {
    echo file_get_contents($xml_file);
  }
  else {
    echo $xp->transformToXML($xml_doc);
  }
?>

像这样调用此脚本时(例如http://localhost/encoding_test/encoding_test.php)，转换后的XHTML文档中的所有字符都可以正常显示，除了'和'字符实体(它们用单引号引起来)。我不是Unicode专家，但是有两点让我震惊:

所有其他字符实体均已正确解释(这可能暗示和的UTF-8性质)

，但是，当XHTML文件未经过调解显示时(例如通过http://localhost/encoding_test/encoding_test.php?bypass=true)，所有字符都可以正确显示。

我想我已经尽可能声明了输出的UTF-8编码。其他人也许会发现出什么问题了并且可以纠正吗？

提前致谢!

罗恩·范登·布兰登

最佳答案

和不是可见的Unicode字符。

它们是用于单引号的旧HTML字符引用1，但是当您使用XSLT处理器处理它们时，处理器看不到单引号，而是看到十进制代码为145和146的Unicode字符，即U+0090 and U+0091。

这些字符是私有(private)使用的(即用法未由Unicode联盟定义)C1 control codes。

解决方案是使用正确的Unicode字符‘和’。

1实际上，这些代码映射到Windows-1252编码。它们由浏览器显示，但实际上是not valid in HTML:

的u

php - XSLT通过PHP的UTF-8编码问题