因此在nltk中,我们可以指定POS标签的正则表达式来提取文本块

sentence = [("the", "DT"), ("little", "JJ"), ("yellow", "JJ"),
... ("dog", "NN"), ("barked", "VBD"), ("at", "IN"),  ("the", "DT"), ("cat", "NN")]

 grammar = "NP: {<DT>?<JJ>*<NN>}"

 cp = nltk.RegexpParser(grammar)
 result = cp.parse(sentence)
 print(result)
(S
  (NP the/DT little/JJ yellow/JJ dog/NN)
  barked/VBD
  at/IN
  (NP the/DT cat/NN))


使用stanford nlp可以做这样的事情吗?我想做的是使用斯坦福POS标记器标记文本,因为我发现它比nltk的标记器更准确。我想一旦我有了标记的句子,我仍然可以使用上面的代码。斯坦福大学NLP是否仍提供开箱即用的功能来创建大量文本?

另外,我知道nltk 3提供了斯坦福大学NLP支持。那么我怎样才能将两者结合起来以获得文本呢?我宁愿在python中执行此操作。

最佳答案

如果知道要作为大块考虑的模式,则可以使用TokensRegex将它们聚类。

关于python - 斯坦福大学自然语言处理:如何获取块,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/34689356/

10-13 00:11