本文介绍了阅读使用iTextSharp的本地化PDF文件的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我想读使用iTextSharp的PDF文件。这个问题是想读英语(印地文或阿拉伯文为例)以外的PDF文件时,它没有得到正确的话。

我在想,我应该安装在系统上的印地文和阿拉伯字体或做我需要做编码的东西吗?

  ITextExtractionStrategy策略=新SimpleTextExtractionStrategy();
字符串currentText = PdfTextExtractor.GetTextFromPage(pdfReader,页面策略);
currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default,Encoding.UTF8,Encoding.Default.GetBytes(currentText)));
text.Append(currentText);

编辑:

样品PDF图片排列方式:

提取的文本:

uxj ikfydk IFJKN fuokZpd ukekoyh&安培; 2011
i`B LA [; k%
1 1 1 1和; &安培; &安培; &安培; ftys DK受身ftys DK受身ftys DK受身ftys DK乌凯%%%%
0701-ò¶âã£ûæ-
2 2 2 2及&安培; &安培; &安培; fudk fudk fudk fudk; ; ; ; DK受身DK受身DK受身DK乌凯%%%%
 1¢AI™
3 3 3 3及&安培; &安培; &安培; okMZ LA LA okMZ拉okMZ拉okMZ [[[[; ; ; ; K-Ø受身ķØ受身ķØ受身ķØ乌凯%%%%
1,一个个™®ã£û¶âû§âîºâã®â£û¶âûÕô¯âû®â£û¶âû
4 4 4 4和&安培; &安培; &安培; Hkkx LA LA Hkkx拉Hkkx拉Hkkx [[[[; ; ; ; K-ķķķ%%%%


解决方案

.I think it will work.

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
text=text+currentText;

///do what you want with text
MessageBox.Show(text);

If still it not working then you have to install specific font.

这篇关于阅读使用iTextSharp的本地化PDF文件的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!

07-08 01:56