我正在尝试使用iTextSharp读取PDF文件。问题是,当尝试读取除英语(例如印地语或阿拉伯语)以外的PDF文件时,没有得到正确的单词。

我想知道,我应该在系统上安装北印度语或阿拉伯语字体还是需要对编码做些什么?

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
text.Append(currentText);


编辑:

将PDF样本作为图像:



提取文字:

uxj ikfydk ifj“ kn fuokZpd ukekoyh&2011
i`“ Bla [; k%
1 1 1 1 &&&&& ftys dk uke ftys dk uke ftys dk uke ftys dk uke%%%%
0701-ò¶âã£ûæ–
2 2 2 2&&&&&fudk fudk fudk fudk; ; ; ; dk uke dk uke dk uke dk uke%%%%
 1-¢â™
3 3 3 3&&&&&&okMZ la okMZ la okMZ la okMZ la [[[[; ; ; ; k o uke k o uke k o uke k o uke%%%%
1-“‮â€û‧â€îâã®â€ââûûûôéâû®â£û¶âû
4 4 4 4&&&&&Hkkx la Hkkx la Hkkx la Hkkx la [[[[; ; ; ; k k k k%%%%

最佳答案

不要使用任何一种编码,因为您不知道什么
  编码是pdf文件。



我认为它将起作用。

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
text=text+currentText;

///do what you want with text
MessageBox.Show(text);


如果仍然无法正常工作,则必须安装特定的字体。

关于c# - 使用Itextsharp读取本地化的PDF文件,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/10900838/

10-12 04:24