我想知道,如果删除了空格,您将如何用英语(或其他西方语言)标记字符串?
这个问题的灵感来自村上春树小说《羊人》中的人物。
在小说中,羊人被翻译成说:
“就像我们说的,我们会很高兴的。“试着把你重新连接起来,随你的便,”牧羊人说。但我们不能一个人。你也得工作。”
所以,有些标点符号是保留的,但不是全部。足以让人阅读,但有些武断。
您为此构建解析器的策略是什么?常见的字母组合、音节计数、条件语法、先行/后置正则表达式等?
具体来说,在Python方面,您将如何构造(原谅)转换流?不要求一个完整的答案,只需要更多的思考过程如何打破问题。
我以轻率的方式问这个问题,但我认为这是一个可能得到一些有趣(nlp/crypto/frequency/social)答案的问题。
谢谢!

最佳答案

我八个月前为工作做过类似的事情。我刚刚在哈希表中使用了一本英语单词字典(用于O(1)查找时间)。我会一个字母一个字母地匹配整个单词。它工作得很好,但是有很多模棱两可的地方。(混蛋可以是混蛋也可以是狗屎)。要解决这些歧义,需要更复杂的语法分析。

10-04 20:48