我希望我的C#应用​​程序(具有GUI)可以帮助用户在“ unicode(utf-8)”和“旧版(cp1252)”之间进行选择。我想为用户提供两个独立的正确/错误读数,以了解是否可以以这两种格式“成功”(尽管不一定正确)读取文件,而不会丢失细节。

当我在C#中尝试以下操作时,它不起作用。也就是说,即使我在我知道包含非罗马字符的utf-8文本文件上调用它,它似乎总是返回true。

[编辑:实际上,我不应该以为这会失败。这可能是碰巧不正确的合理成功之一,因为大多数(所有?)字节流也是有效的cp1252。测试另一个方向确实会发现无效的utf-8,就像下面的Python代码一样。]

例如。 CanBeReadAs(“ nepali.txt”,Encoding.GetEncoding(1252))应该返回false,但返回true。

public static bool CanBeReadAs(string filePath, Encoding encoding)
    {
        // make it strict:
        encoding = Encoding.GetEncoding(encoding.CodePage, EncoderFallback.ExceptionFallback, DecoderFallback.ExceptionFallback);
        using (var r = new StreamReader(filePath, encoding, false))
        {
            try
            {
                r.ReadToEnd();
            }
            catch (Exception e)
            {
                //swallow
                return false;
            }
        }
        return true;
    }


我也尝试过使用“ string s = r.ReadToEnd();”只是为了确保确实要对数据进行解码,但这似乎没有任何影响。

我究竟做错了什么?

注意:如果需要做一些特殊的事情来处理BOM,请也告诉我。如果那很简单,我倾向于忽略它们。 (尽管其中有些文件混合使用了BTW编码,但我想实际上以BOM表开头的任何东西都是纯Unicode。)

这是我创建的Python脚本,它使用相同的策略并且运行良好:

def bad_encoding(filename, enc='utf-8', max=9):
'''Return a list of up to max error strings for lines in the file not encoded in the specified encoding.

Otherwise, return an empty list.'''

errors = []
line = None
with open(filename, encoding=enc) as f:
    i = 0
    while True:
        try:
            i += 1
            line = f.readline()
        except UnicodeDecodeError:
            errors.append('UnicodeDecodeError: Could not read line {} as {}.'.format(i, enc))
        if not line or len(errors) > max:
            break

return errors

最佳答案

可通过Encoding类使用的静态Encoding实例(Ascii,UTF8,Unicode等)都尽最大努力对输入字节进行解码,并且在失败时不抛出错误。

要创建具有特定编码/解码行为的编码,应使用带有EncoderFallback / DecoderFallback参数的Encoding.GetEncoding重载。我尝试创建各种编码(AsciiEncoding,UTF8Endcoding)的实例,但它们是只读的,因此设置后备选项始终会引发InvalidOperationException。对于您的情况,要创建一个在解码失败时抛出的实例,请尝试:

encoding = Encoding.GetEncoding(encoding.CodePage, EncoderFallback.ExceptionFallback, DecoderFallback.ExceptionFallback);

10-06 05:43
查看更多