一直在努力删除niqqud(用于表示元音或区分希伯来语字母的替代发音的变音符号)。
例如,我有这个变量:
sample1
而且我找不到消除字母下方标志的有效方法。
尝试过的纵梁,带有str_replace_all(sample1, "[^[:alnum:]]", "")
尝试过gsub('[:punct:]','',sample1)
没有成功... :-(
有任何想法吗?
最佳答案
您可以使用\p{M}
Unicode类别来将变音符号与类似Perl的正则表达式进行匹配,并一次性使用gsub
将所有这些变音符号进行匹配,如下所示:
sample1 <- "הֻסְמַק"
gsub("\\p{M}", "", sample1, perl=T)
结果:
[1] "הסמק"
参见demo
在Regular-Expressions.info, "Unicode Categories"上查看更多信息。