This question already has an answer here:
nltk cant interpret grammar category PRP$ output by stanford parser
                                
                                    (1个答案)
                                
                        
                                2年前关闭。
            
                    
我正在尝试使用从以下代码获得的POS标签构建PCFG:

from nltk.corpus import treebank

corpus = treebank.tagged_sents(tagset='universal')
tags = set()

for sent in corpus:
    for (word, tag) in sent:
        tags.add(tag)

tags = list(tags)
print tags


给,

['ADV', 'NOUN', 'ADP', 'PRON', 'DET', '.', 'PRT', 'NUM', 'X', 'CONJ', 'ADJ', 'VERB']


我需要使用上面的POS标记生成PCFG。但是,当我尝试使用规则构造语法时

nltk.grammar.PCFG.fromstring("""T5 -> . NT6 [0.136235]""")


它产生

ValueError: Unable to parse line 1: T5 -> . NT6 [0.136235]
Expected a nonterminal, found: . NT6 [0.136235]


我认为该异常表示“。”。在nltk.grammar.PCFG中不是有效的非终结符。但是我想知道是否有一种整齐的方法可以解决此问题。

有关

nltk cant interpret grammar category PRP$ output by stanford parser提供了一个很好的修复方法,可以将treebank标签集中的“ $”添加到语法中。但是,treebank POS标签集再次包含单引号('')作为POS标签,这不是有效的符号。

是否有解决此问题的巧妙方法,而不必在语法中添加每个特殊字符?

最佳答案

我得到了这个问题的答案。代替使用fromstring方法,通过传递nltk.ProbabilisticProduction对象的列表和nltk.Nonterminal对象的方式生成PCFG对象,如下所示:

from nltk import ProbabilisticProduction
from nltk.grammar import PCFG
from nltk import  Nonterminal as NT

g = ProbabilisticProduction(NT('TS'), [NT('.'), NT('NT6')], prob=1)

# Adding a terminal production
g = ProbabilisticProduction(NT('NT6'), ['terminal'], prob = 1)

start = NT('Q0')  # Q0 is the start symbol for my grammar
PCFG(start, [g]) # Takes a list of ProbabilisticProductions

10-04 17:20