这可能与其他韩语编码问题不同。
有这个网站我必须刮,它是韩文。
他们网站上的一个例句是这样的
"개인정보보호를 위해 뒤로사기 버튼 대신 검색결과 화면 상단과 하닠싰를뒤로사기 버튼 대신
我正在使用 HttpWebRequest 和 HttpWebResponse 来抓取站点。
这就是我检索 html 的方式
-- 部分代码 --
using (Stream data = resp.GetResponseStream())
{
response.Append(new StreamReader(data, Encoding.GetEncoding(code), true).ReadToEnd());
}
现在我的问题是,我没有得到正确的韩文字符。在我的“代码”变量中,我将代码页放在 MSDN http://msdn.microsoft.com/en-us/library/system.text.encoding.aspx 中(让我缩小范围)。
这是韩语代码页:
51949、50225、20949、20833、10003、949
但仍然没有得到正确的韩文字符?你认为是什么问题?
最佳答案
页面很可能不是特定的韩语编码,而是 Unicode 编码之一。
尝试 Encoding.UTF8
、 Encoding.Default
(UTF-16) 而不是特定的代码页。还有 Encoding.UTF7
和 Encoding.UTF32
,但它们并不常见。
可以肯定的是,检查服务器返回的内容类型的元标记和 header 。
更新(从评论中收集):
由于内容类型 header 是 EUC-KR
,相应的代码页是 51949 ,这是您需要用来检索页面的内容。
不清楚您是否将其写入文件 - 写入文件时需要使用相同的编码,或者将 byte[]
从原始文件转换为输出文件编码(使用 Encoding.Convert
)。
关于C# - 韩文编码,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/10031782/