Closed. This question needs to be more focused。它当前不接受答案。
                            
                        
                    
                
                            
                                
                
                        
                            
                        
                    
                        
                            想改善这个问题吗?更新问题,使其仅通过editing this post专注于一个问题。
                        
                        2年前关闭。
                                                                                            
                
        
我对Tesseract OCR置信度值有一些疑问,可以通过在C ++ API中调用AllWordConfidences()函数来获得。


置信度值是多少(由tesseract API返回),tesseract如何计算该值? (例如基于什么因素)?
我是否有可能改变tesseract的准确性水平?


有人可以帮我解决这些问题吗?谢谢。

最佳答案

我在其他OCR软件(特别是在ANPR软件中)中使用了类似的指标。如果我没记错的话,总体上有两个置信度。一个是0-> 100%置信度,另一个是0-> X值,该值用作各种级联置信度因子的集合。
该值是任意的,因此我建议使用0-> 100%的值。还要注意,每个字符都应有一个置信度。

通过评估轮廓线/边缘的清晰度,字符中检测到的形状与预期形状的接近程度以及选择一个字符与选择另一个字符的决策有多接近来计算这些度量。 IE OCR比“ Q”和“ O”在“ p”和“ b”之间进行选择的时间更短。

“改善”这些指标的唯一方法是训练探测器!因此,准备拥有大量有效数据。您还需要使用Tesseract培训工具保持耐心-我发现它们是75%的噩梦。

祝好运!

关于c++ - Tesseract OCR的置信度值,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/44323053/

10-09 13:49