我正在处理文本语料库。它包含几个属于不同语言、符号、数字等的字符。
->我要做的就是跳过箭头、心脏符号等符号。
->我不应该破坏任何不同语言的文字。
有线索吗?
----更新----
character.islet('\unicode')适用于大多数情况,如果不是某些情况的话。我已经检查过我的地区语言,似乎对一些人有效,但不是每个人都有效。
谢谢。
最佳答案
如果我正确理解了tnad,那么您要删除的字符集是相当有限的。为什么不检查一下?Unicode有一大堆非字母字符,但在您的情况下,遇到的非字母字符可能是存在的一小部分。
如果你问我的话,听起来像是个正则表达式的工作。删除所有不是单词字符、数字或空白的内容,很可能就得到了。或者创建一个数组,该数组包含要筛选掉的所有字符(在这种情况下,应该很少且已知)。
关于java - 如何使用Java查找非字母,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/4874564/