我有一个以这一行开头的UTF-8文本文件:

<HEAD><META name=GENERATOR content="MSHTML 10.00.9200.16521"><body>


当我使用带有TEncoding.UTF8的TFile.ReadAllText读取此文件时:

MyStr := TFile.ReadAllText(ThisFileNamePath, TEncoding.UTF8);


然后将省略文本文件的前3个字符,因此MyStr的结果为:

'AD><META name=GENERATOR content="MSHTML 10.00.9200.16521"><body>...'


但是,当我使用TFile.ReadAllText而不使用TEncoding.UTF8读取此文件时:

MyStr := TFile.ReadAllText(ThisFileNamePath);


那么就可以完全正确地读取文件:

<HEAD><META name=GENERATOR content="MSHTML 10.00.9200.16521"><body>...


TFile.ReadAllText是否有错误?

最佳答案

因为RTL代码假定文件包含UTF-8 BOM,所以跳过了前三个字节。显然,您的文件没有。

TUTF8Encoding类实现指定GetPreamble BOM的UTF-8方法。并且ReadAllBytes跳过您通过的编码指定的前同步码。

一种简单的解决方案是将文件读取为字节数组,然后使用TEncoding.UTF8.GetString将其解码为字符串。

var
  Bytes: TBytes;
  Str: string;
....
Bytes := TFile.ReadAllBytes(FileName);
Str := TEncoding.UTF8.GetString(Bytes);


一个更全面的替代方法是制作一个忽略UTF-8 BOM的TEncoding实例。

type
  TUTF8EncodingWithoutBOM = class(TUTF8Encoding)
  public
    function Clone: TEncoding; override;
    function GetPreamble: TBytes; override;
  end;

function TUTF8EncodingWithoutBOM.Clone: TEncoding;
begin
  Result := TUTF8EncodingWithoutBOM.Create;
end;

function TUTF8EncodingWithoutBOM.GetPreamble: TBytes;
begin
  Result := nil;
end;


实例化其中之一(每个进程只需要一个实例)并将其传递给TFile.ReadAllText

使用TUTF8EncodingWithoutBOM的单例实例的优点是可以在需要TEncoding的任何地方使用它。

10-08 13:21