我是一个在NLP做暑期项目的学生。我对这个领域还不太熟悉,所以如果有一个非常明显的解决方案,我很抱歉。这个项目是用C语言编写的,这既是因为我对它的熟悉,也是因为这个项目的计算密集型(我的语料库是维基百科的纯文本转储)。
我正在研究一种关系提取的方法,利用一致性原则来尝试学习(在一定的错误阈值内)一组规则,这些规则指示哪些语法对象集群暗示了这些对象之间的连接。
该算法的第一步包括查找给定单词可以引用的所有可能语法对象的集合(POS消歧是由该算法在后面的步骤隐式完成的)。我看过几个解析器,但它们似乎都是自己做消歧步骤的,这(从我的角度)是适得其反的。我正在寻找现成的东西(理想情况下)给我一个单一的命令方式来找到这些信息。
这样的事情存在吗?如果不是,是否存在一个现存的字典,它包含了可以简单描述机器的信息?
谢谢你的帮助。

最佳答案

看看CMU狮身人面像一个开源的NLP项目。我认为它是C++的,但是你可以把它集成起来,或者至少得到关于如何处理事情的想法。

关于c - 用于简单POS标记的NLP库,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/10926398/

10-15 02:49