一直在努力删除niqqud(用于表示元音或区分希伯来语字母的替代发音的变音符号)。
例如,我有这个变量:
sample1
而且我找不到消除字母下方标志的有效方法。

尝试过的纵梁,带有str_replace_all(sample1, "[^[:alnum:]]", "")尝试过gsub('[:punct:]','',sample1)
没有成功... :-(
有任何想法吗?

最佳答案

您可以使用\p{M} Unicode类别来将变音符号与类似Perl的正则表达式进行匹配,并一次性使用gsub将所有这些变音符号进行匹配,如下所示:

sample1 <- "הֻסְמַק"
gsub("\\p{M}", "", sample1, perl=T)

结果:[1] "הסמק"
参见demo



Regular-Expressions.info, "Unicode Categories"上查看更多信息。

09-26 21:59