Closed. This question needs to be more focused。它当前不接受答案。












想改善这个问题吗?更新问题,使其仅关注editing this post的一个问题。

1年前关闭。



Improve this question




我有一些法语文本,需要以某种方式进行处理。为此,我需要:
  • 首先,将文本标记为单词
  • 然后对这些词进行词法化,以避免多次处理同一词根

  • 据我所知,NLTK中的词网lemmatizer仅适用于英语。我想要可以在返回“voudrais”时返回“vouloir”的东西,依此类推。由于撇号,我也无法正确标记化标记。任何指针将不胜感激。 :)

    最佳答案

    Here是nltk开发人员的古老而相关的评论。看起来nltk中最高级的词干都是英语特定的:



    注意:他给出的链接已死,请参阅here以获取当前的正则表达式文档。

    不过,最近添加的snowball stemmer似乎可以阻止法语。让我们对其进行测试:

    >>> from nltk.stem.snowball import FrenchStemmer
    >>> stemmer = FrenchStemmer()
    >>> stemmer.stem('voudrais')
    u'voudr'
    >>> stemmer.stem('animaux')
    u'animal'
    >>> stemmer.stem('yeux')
    u'yeux'
    >>> stemmer.stem('dors')
    u'dor'
    >>> stemmer.stem('couvre')
    u'couvr'
    

    如您所见,某些结果有点可疑。

    并不是您所希望的,但是我想这是一个开始。

    关于python - 使法语文本合法化,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/13131139/

    10-12 21:11