Closed. This question needs to be more focused。它当前不接受答案。
想改善这个问题吗?更新问题,使其仅关注editing this post的一个问题。
1年前关闭。
Improve this question
我有一些法语文本,需要以某种方式进行处理。为此,我需要:
首先,将文本标记为单词 然后对这些词进行词法化,以避免多次处理同一词根
据我所知,NLTK中的词网lemmatizer仅适用于英语。我想要可以在返回“voudrais”时返回“vouloir”的东西,依此类推。由于撇号,我也无法正确标记化标记。任何指针将不胜感激。 :)
如您所见,某些结果有点可疑。
并不是您所希望的,但是我想这是一个开始。
想改善这个问题吗?更新问题,使其仅关注editing this post的一个问题。
1年前关闭。
Improve this question
我有一些法语文本,需要以某种方式进行处理。为此,我需要:
据我所知,NLTK中的词网lemmatizer仅适用于英语。我想要可以在返回“voudrais”时返回“vouloir”的东西,依此类推。由于撇号,我也无法正确标记化标记。任何指针将不胜感激。 :)
最佳答案
Here是nltk开发人员的古老而相关的评论。看起来nltk中最高级的词干都是英语特定的:
注意:他给出的链接已死,请参阅here以获取当前的正则表达式文档。
不过,最近添加的snowball stemmer似乎可以阻止法语。让我们对其进行测试:
>>> from nltk.stem.snowball import FrenchStemmer
>>> stemmer = FrenchStemmer()
>>> stemmer.stem('voudrais')
u'voudr'
>>> stemmer.stem('animaux')
u'animal'
>>> stemmer.stem('yeux')
u'yeux'
>>> stemmer.stem('dors')
u'dor'
>>> stemmer.stem('couvre')
u'couvr'
如您所见,某些结果有点可疑。
并不是您所希望的,但是我想这是一个开始。
关于python - 使法语文本合法化,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/13131139/
10-12 21:11