As it currently stands, this question is not a good fit for our Q&A format. We expect answers to be supported by facts, references, or expertise, but this question will likely solicit debate, arguments, polling, or extended discussion. If you feel that this question can be improved and possibly reopened, visit the help center提供指导。
已关闭8年。
在哪里可以找到一些真实的打字错误统计信息?
我试图将人们的输入文本与内部对象匹配,人们往往会犯拼写错误。
有两种错误:
我将Damerau-Levenshtein distance用于拼写,将Double Metaphone用于拼写(Python实现here和here)。
我想专注于Damerau-Levenshtein(或简称
例子:
我确定“Helllo”(“Hello”)的可能性大于“Helzlo”,但两者的编辑距离均为1。 在QWERTY键盘上,“Gello”比“Qello”更接近“Hello”。 Unicode音译:“慕尼黑”和“慕尼黑”之间的“真实”距离是多少?
删除,插入,替换和换位的“现实世界”权重应该是什么?
甚至Norvig's very cool spell corrector也使用非加权编辑距离。
顺便说一句-我确定权重需要是功能而不是简单的浮点数(根据上述
例子)...
我可以调整算法,但是在哪里可以“学习”这些权重?我无权访问Google-scale data ...
我应该猜他们吗?
编辑-尝试回答用户问题:
由于上述原因,当遇到错别字时,我当前的非加权算法经常会失败。 “返回星期二”:每个“真实的人”都可以轻易地看出周四比周二更有可能,但他们都只有1个编辑距离! (是的,我记录并评估了我的表现)。 我正在开发NLP Travel搜索引擎,因此我的词典包含〜25K目的地(预期增长到100K),时间表达式〜200(预期1K),人物表达式〜100(预期300),Money表达式〜100(预期) 500),“胶合逻辑词”(“from”,“beautiful”,“apartment”)〜2K(预期为10K)等等... 上述每个词组的编辑距离用法都不相同。我尝试“在明显时自动更正”,例如字典中只有1个其他单词的编辑距离为1。我还有许多其他手动调整的规则,例如Double Metaphone修复程序,与距长度大于4的词典单词的编辑距离不超过2 ...随着我从现实世界中学习到的内容,规则列表继续增长。 “您的阈值内有几对字典条目?”:好吧,这取决于“花式加权系统”和现实世界( future )的输入,不是吗?无论如何,我都有大量的单元测试,因此我对系统所做的每一次更改都只会使其变得更好(当然是基于过去的输入)。大多数低于6个字母的单词与距离另一个词典条目1个编辑距离的单词相距1个编辑距离。 今天,当距输入的距离相等时有2个字典条目时,我尝试应用各种统计数据来更好地猜测用户的意思(例如,法国巴黎比伊朗帕里斯更有可能出现在我的搜索中)。 选择错误单词的代价是将半随机(通常是荒谬的)结果返回给最终用户,并有可能失去客户。不理解的成本稍微便宜一些:将要求用户重新表达。 值得付出复杂性的代价吗?是的,我确定是。您不会相信人们向系统扔的错别字数量,并希望它能够理解,我肯定可以使用Precision and Recall中的boost。
已关闭8年。
在哪里可以找到一些真实的打字错误统计信息?
我试图将人们的输入文本与内部对象匹配,人们往往会犯拼写错误。
有两种错误:
typos
-用“Helllo”代替“Hello”/“Satudray”而不是“Saturday”等。Spelling
-用“Shikago”代替“Chicago” 我将Damerau-Levenshtein distance用于拼写,将Double Metaphone用于拼写(Python实现here和here)。
我想专注于Damerau-Levenshtein(或简称
edit-distance
)。教科书的实现总是使用“1”表示删除,插入替换和换位的权重。尽管这很简单,并且允许使用好的算法,但它与“真实性”/“现实世界中的概率”不匹配。例子:
删除,插入,替换和换位的“现实世界”权重应该是什么?
甚至Norvig's very cool spell corrector也使用非加权编辑距离。
顺便说一句-我确定权重需要是功能而不是简单的浮点数(根据上述
例子)...
我可以调整算法,但是在哪里可以“学习”这些权重?我无权访问Google-scale data ...
我应该猜他们吗?
编辑-尝试回答用户问题:
最佳答案
现实中的错字统计信息的可能来源将在 Wikipedia的完整编辑历史记录中。
http://download.wikimedia.org/
另外,您可能对AWB的RegExTypoFix感兴趣
http://en.wikipedia.org/wiki/Wikipedia:AWB/T
09-26 08:36