3 begincidrange
<20> <7e> 1
<8140> <817e> 633
<8180> <81ac> 696
endcidrange
这是一个 CMAP 文件示例。
最佳答案
您的 CMap 表建立了所有字符代码到 CID 的映射。
begincidrange 运算符之前出现的数字表示映射的数量
线。 endcidrange 运算符终止一个映射块。
begincidrange 和 endcidrange 之间的行包含映射。每行有 3 个条目。前两个指定字符代码范围,第三个是它们映射到的 CID 值。
所以字符代码 0x20 到 0x7e 映射到 CID 1。
Adobe Technote 5099 描述了 CID 表的格式。
关于pdf文本提取,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/2893188/