如何将从朴素贝叶斯预测的句子类别表示为CRF ++或Wapiti的功能?
例如,如果句子Tumblr merges with Yahoo.
被分类为Business
,那么在编写crf的训练文件时,我在哪里可以将标签Business
标记为特征?模板应该如何建模?
火车文件应该是这样吗
Tumblr business ORG
merges business O
with business O
Yahoo business ORG
还是只包含带有
ORG
标签的类别?为何如此?和模板文件? 最佳答案
方法1:
您可以按照显示的相同方式将business
添加为功能,也可以直接编写1
而不是business
。同样,对于类别sports
,您可以添加另一列,并且对于属于运动句子的单词,该列中的值应为1
。
您还必须分别在模板文件中添加每一列。
U42:%x[0,1] #for business
U43:%x[0,2] #for sports
方法2:
在ORG中包含类别可能不是一个好主意,因为相同的ORG可以出现在不同的类别中。
关于machine-learning - CRF++/Wapiti包括整个句子的类别作为特征,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/44416634/