我正在使用CGPDFScanner从PDF中提取文本。

在调用我的TJ操作符回调时,当前字体的CIDSystemInfo->Registry值为“ Adob​​e”,而CIDSystemInfo->Ordering值为“ Japan1”。即字符集“ Adob​​e-Japan1”。

如何使用这个事实将我在Tj运算符中找到的所有文本转换为unicode?

我确定我没有在这里看到树木的树木。

最佳答案

您可以使用Adobe的CMAP文件将Japan1重新映射为unicode。另外,请查看“补充”以获取正确的文件。

http://opensource.adobe.com/wiki/display/cmap/Downloads

10-06 05:57