当我打开PDF文件并将内容写入文本文件时,文本文件中的内容被弄乱了。我认为是因为编码。据我了解,JVM将默认字符集设置为Cp1252
(因为我在Windows XP上运行)。我已经更改了默认字符集,但没有结果(System.setProperty("file.encoding", "ISO-8859-1");
)
我尝试使用IText,但是结果内容缺少一些带有变音符号的字母
有任何想法吗?
最佳答案
iText无法正确读取所有字母的原因可能是由于字体使用了编码。您可以像这样声明字体:
BaseFont bf = BaseFont.createFont(BaseFont.HELVETICA, BaseFont.CP1252, BaseFont.EMBEDDED);
其中BaseFont.CP1252是使用的编码。请注意,某些字体不支持所有类型的编码。