我正在使用CGPDFScanner
从PDF中提取文本。
在调用我的TJ
操作符回调时,当前字体的CIDSystemInfo->Registry
值为“ Adobe”,而CIDSystemInfo->Ordering
值为“ Japan1”。即字符集“ Adobe-Japan1”。
如何使用这个事实将我在Tj
运算符中找到的所有文本转换为unicode?
我确定我没有在这里看到树木的树木。
最佳答案
您可以使用Adobe的CMAP文件将Japan1重新映射为unicode。另外,请查看“补充”以获取正确的文件。
http://opensource.adobe.com/wiki/display/cmap/Downloads