因此在nltk中,我们可以指定POS标签的正则表达式来提取文本块
sentence = [("the", "DT"), ("little", "JJ"), ("yellow", "JJ"),
... ("dog", "NN"), ("barked", "VBD"), ("at", "IN"), ("the", "DT"), ("cat", "NN")]
grammar = "NP: {<DT>?<JJ>*<NN>}"
cp = nltk.RegexpParser(grammar)
result = cp.parse(sentence)
print(result)
(S
(NP the/DT little/JJ yellow/JJ dog/NN)
barked/VBD
at/IN
(NP the/DT cat/NN))
使用stanford nlp可以做这样的事情吗?我想做的是使用斯坦福POS标记器标记文本,因为我发现它比nltk的标记器更准确。我想一旦我有了标记的句子,我仍然可以使用上面的代码。斯坦福大学NLP是否仍提供开箱即用的功能来创建大量文本?
另外,我知道nltk 3提供了斯坦福大学NLP支持。那么我怎样才能将两者结合起来以获得文本呢?我宁愿在python中执行此操作。
最佳答案
如果知道要作为大块考虑的模式,则可以使用TokensRegex将它们聚类。
关于python - 斯坦福大学自然语言处理:如何获取块,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/34689356/