我正在试验 NTLK。我的问题是图书馆是否可以检测德语名词的性别。我想收到此信息以确定文本是否是性别中立的。浏览此处获取更多信息:
https://en.wikipedia.org/wiki/Gender_neutrality_in_languages_with_grammatical_gender

底层代码对​​我的句子进行了分类,但我看不到任何有关 "Mitarbeiter" 性别的信息。到目前为止我的代码:

sentence = """Der Mitarbeiter geht."""
tokens = nltk.word_tokenize(sentence)
tagged = nltk.pos_tag(tokens)
>>> tagged[0:6]

到目前为止,我还没有找到任何工具或脚本来完成这个任务。也许我的任务还有更好的解决方案。

最佳答案

我不相信 NLTK 可以为德语开箱即用。但是,有免费的德语形态标记器可以为您做到这一点,例如 RFTagger:

http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/

它给出了这样的输出:

Das     PRO.Dem.Subst.-3.Nom.Sg.Neut
ist     VFIN.Sein.3.Sg.Pres.Ind
ein     ART.Indef.Nom.Sg.Masc
Testsatz    N.Reg.Nom.Sg.Masc
.   SYM.Pun.Sent

但是它不在 Python 中,因此您必须使用 subprocess 调用它。另一种选择是获取带有德语性别标记的名词语料库,例如 Tiger 语料库:

http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.en.html

并训练 NLTK 识别性别,但我希望 RFTagger 是一个更快/更准确的解决方案。

关于python - 使用 NLTK 和德语语料库从名词中获取性别,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42517201/

10-12 16:41