我写了一些基本程序,我想提取波兰语单词的引理,这是自波兰语使用拐点以来非常重要的。

我当时创建了一个简单的程序来加载数据并将单词转换成引理,但是却不知道该怎么做:

from nltk import corpus

pl = corpus.pl196x
print dir(pl)
print iter(pl.tagged_words()).next()


例如,我要进行这样的词条化处理(忽略某些词条化处理可能是模棱两可的-这在波兰语中是正常的):

kot, kota, kota, kotu, kotem, kocie, kocie == kot (singular male)
kotka, kotki, kotkę, kotce, kotką, kotce, kotka == kot (singular female!)
kociątko, kociątka, kociątko, kociątku, kociątkiem, kociątku, kociątko == kot (singular neutral)
etc. (plural males, plural females, plural neutrals)


如何使用pl196x在nltk或nltk中进行此类工作。



语料库的源数据包含此类词尾变化和引理-因此可以但如何访问它们:

<w id="pu147125" lemma="kot" ana="SSNA---------P">kot</w>
<w id="pr021633" lemma="kot" ana="SSAA---------P">kota</w>
etc.

最佳答案

我不知道NLTK本身是否可能。当我遇到类似的问题时,我曾使用Morfeusz(http://sgjp.pl/morfeusz/)。尽管我只使用了C版本的库,但是它有一个Python绑定(http://jwilk.net/software/python-morfeusz)。

08-24 19:55