我写了一些基本程序,我想提取波兰语单词的引理,这是自波兰语使用拐点以来非常重要的。
我当时创建了一个简单的程序来加载数据并将单词转换成引理,但是却不知道该怎么做:
from nltk import corpus
pl = corpus.pl196x
print dir(pl)
print iter(pl.tagged_words()).next()
例如,我要进行这样的词条化处理(忽略某些词条化处理可能是模棱两可的-这在波兰语中是正常的):
kot, kota, kota, kotu, kotem, kocie, kocie == kot (singular male)
kotka, kotki, kotkę, kotce, kotką, kotce, kotka == kot (singular female!)
kociątko, kociątka, kociątko, kociątku, kociątkiem, kociątku, kociątko == kot (singular neutral)
etc. (plural males, plural females, plural neutrals)
如何使用pl196x在nltk或nltk中进行此类工作。
语料库的源数据包含此类词尾变化和引理-因此可以但如何访问它们:
<w id="pu147125" lemma="kot" ana="SSNA---------P">kot</w>
<w id="pr021633" lemma="kot" ana="SSAA---------P">kota</w>
etc.
最佳答案
我不知道NLTK本身是否可能。当我遇到类似的问题时,我曾使用Morfeusz(http://sgjp.pl/morfeusz/)。尽管我只使用了C版本的库,但是它有一个Python绑定(http://jwilk.net/software/python-morfeusz)。