我正在创建一个噪声消除程序,该程序将主要检测
-拼写错误的单词
-缩写
-非标准字符
和非标准字词。

我在前三个方面取得了进展,但在最后一个方面,有没有什么好的库可以检测到lang语或非标准词。例如,它可以检测到gr8之类的单词,而不是great和gudnight来表示晚安。

最佳答案

我不知道任何可公开使用的图书馆或已经建立的语料库。您可以尝试从urbandictionary.com抓取它。我的建议:


使用Twitter API并使用lang = English收集几千条消息
在单词中标记化。
消除那些非ASCII字符-表情符号,不同语言的单词等将消失
应用您已经为gr8,l8等使用的翻译规则。
访问project gutenberg并阅读一些英语经典著作。对它们进行标记,并建立propah英语词库(:)词库
从Twitter上收集的语料库中减去同义词库
开始检查剩余的列表-我保证您会发现要添加到第4点的许多其他规则。回到第4点,重复该循环几次。


之后,剩下的内容将足够密集,使手动选择术语变得更容易。整个过程大约需要1周到10天的时间才能生成足够数量的语-可以将其与urbandictionary.com进行交叉核对。

上次对我来说是一次有趣的经历。 (您是否知道“我讨厌您”的推文是“我爱您”的6倍?也许这是关于推特精神的一些说法,我不知道)。

10-04 14:53