我试着使用tess-two,这是一个android的分岔工具。我想在tesseract中打开hocr输出,从这个link开始,我试图将variabletessedit_create_hocr设置为true,但是在输出中看不到hocr。这是我的尝试:

  baseApi.init(FileUtil.getAppFolder(), "eng", TessBaseAPI.OEM_TESSERACT_CUBE_COMBINED);
  baseApi.setVariable("tessedit_create_hocr", "1")
  baseApi.setImage(bitmap);
  String recognizedText = baseApi.getUTF8Text();

有人告诉hocr输出应该在config文件夹或contain image文件夹中,但我没有看到任何东西。我不知道如何配置hocr输出的文件名和位置。
另一件事:有没有办法将配置文件应用到Android的Tesseract工具中?我将配置文件放入tessdata/config文件夹,但没有发生任何事情。如何告诉tesseract应该读取这些配置文件?似乎他们没有足够的android文档。
更新:感谢@nguyenq,现在我可以获得HOCR数据。这是我的尝试:
  jstring Java_com_googlecode_tesseract_android_TessBaseAPI_nativeGetHOCRText(JNIEnv *env,
                                                                        jobject thiz,    jint page) {

 native_data_t *nat = get_native_data(env, thiz);

 char *text = nat->api.GetHOCRText(page);

 jstring result = env->NewStringUTF(text);

 free(text);

 return result;
 }

最佳答案

显然,tess-two并没有实现所有的TessBaseAPI,因为它不包括对本机GetHOCRText方法的支持。您可能需要自己扩展包装器才能访问所需的函数。
配置文件用于命令行执行。或者,可以通过公开的api方法设置必要的变量。

10-08 15:32