我不小心回答了question,其中最初的问题涉及将句子拆分为单独的单词。

作者suggested to use BreakIterator 标记输入字符串,有些人喜欢这个想法。

我只是不那么疯狂:25行复杂的代码如何比带有regexp的简单单行代码更好?

请向我解释使用BreakIterator的优点以及实际使用情况。

如果它真的很酷而且合适,那么我想知道:您是否在项目中使用了BreakIterator这个方法?

最佳答案

通过查看该答案上发布的代码,看起来BreakIterator考虑了文本的语言和语言环境。通过正则表达式获得那种水平的支持肯定会是一个很大的痛苦。也许这是它比简单的正则表达式更受青睐的主要原因?

07-24 22:11