我找到了多种工具来提取英语中的语言和名词短语,包括在stackoverflow中的某些问题中。但是,我发现的技术似乎仅适用于英文文本。我已经尝试过spacy和textblob,但它们不会为葡萄牙语文本返回任何内容(完全可以在英语中运行)。
这是我为葡萄牙语尝试的内容:
Spacy to extract specific noun phrase
doc.noun_chunks中的代码块非常适合英语,但是有人知道葡萄牙语已经存在的技术吗?我正在搜寻我知道的任何地方。
最佳答案
noun_chunks
是针对每种语言单独实现的,因为基本名词短语看起来会有所不同:确定词和形容词出现的顺序是什么,相关的依赖关系和词性标记是什么,等等。
一些次要细节可能有所不同,但是我想葡萄牙语名词块与西班牙语名词块非常相似,因此您可以使用Spanish noun chunks iterator作为起点。西班牙语和葡萄牙语都使用依赖关系和通用依赖中的简单POS标签,因此我希望它很容易适应。
Spacy没有任何内置的动词短语提取器,但是基本概念类似于名词块:基于POS标签和依赖树定义模式以标识要提取的短语。