我必须清除OCR的一些输入,OCR将手写识别为乱码。对正则表达式清除随机字符有什么建议吗?例子:

周一,联邦检察官指控一名迈阿密男子犯有最大的罪名。
在美国发生的信用卡和借记卡数据盗窃案,
指责一次性政府告密者掠夺一亿三千万
之前他偷走了4000万美元。

, ':, IE
':... 11'1
。 '(..〜!'':f I I
。 ”。我〜
我11升
我我我〜\:',! 。〜,.. r,1,〜I。一世' , 。'一世 ,。
, 一世
一世 ; J.一世。' ,。\)..
。 : 一世
'我',我
。” '
r,”

冈萨雷斯是美国特勤局的前线人,曾帮助
当局说,该机构搜寻黑客。该机构后来发现
他还一直在与罪犯合作,并向他们提供信息
进行中的调查,甚至警告至少一个人,
根据当局。

嗯...
〜。\O::t
e; ~~~
s:~~。 0
qs c::; 〜克
o t/J(Ii。,
:: 3(1l Il:l
〜cil〜0 2:
t:lHj〜(1l
。 ~~一个
0〜〜S'
N(“b t/J:s
Ot/JIl:l“-v'g::!t:O
-....C......
VI(:ll :=-〜
(1升〜'
t/J VJ〜
l
.....
....
(二

最佳答案

一个简单的启发式方法,类似于anonymous的答案:

listA = [0,1,2..9, a,b,c..z, A,B,C,..Z , ...] // alphanumerical symbols
listB = [!@$%^&...] // other symbols

Na = number_of_alphanumeric_symbols( line )
Nb = number_of_other_symbols( line )

if Na/Nb <= garbage_ratio then
  // garbage

关于正则表达式替换乱码,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/1291661/

10-11 22:38
查看更多