如何将从朴素贝叶斯预测的句子类别表示为CRF ++或Wapiti的功能?

例如,如果句子Tumblr merges with Yahoo.被分类为Business,那么在编写crf的训练文件时,我在哪里可以将标签Business标记为特征?模板应该如何建模?

火车文件应该是这样吗

Tumblr    business    ORG
merges    business    O
with     business    O
Yahoo    business    ORG


还是只包含带有ORG标签的类别?为何如此?和模板文件?

最佳答案

方法1:
您可以按照显示的相同方式将business添加为功能,也可以直接编写1而不是business。同样,对于类别sports,您可以添加另一列,并且对于属于运动句子的单词,该列中的值应为1
您还必须分别在模板文件中添加每一列。

U42:%x[0,1] #for business
U43:%x[0,2] #for sports


方法2:
在ORG中包含类别可能不是一个好主意,因为相同的ORG可以出现在不同的类别中。

关于machine-learning - CRF++/Wapiti包括整个句子的类别作为特征,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/44416634/

10-12 19:29