从我从jcrfsuite示例中给出的POS标记示例中了解到。培训文件用制表符分隔,第一个标记是标签。但是我没有BigCluster |事情。有人可以帮助我如何在训练文件中指定标记。
下面的例子:
O BigCluster | 00 BigCluster | 0000 BigCluster | 000000 BigCluster | 00000000 BigCluster | 0000000000 BigCluster | 000000000000 BigCluster | 00000000000000 BigCluster | 0000000000000000 NextBigCluster | 0100 NextBigCluster | 01000101 NextBigCluster | 010001011111 POSTagDict | D POSTagDict | G POSTagDict | POST | V 1gramSuff | i 1gramPref | i前言| prevcurr || i nextword |预测nextword |预测currnext | i |预测单词| I Lower | i Xxdshape | X charclass | 1,首个短字符prevnext ||预测t = 0
测试文件格式:
! BigCluster | 01 BigCluster | 0110 BigCluster | 011011 BigCluster | 01101100 BigCluster | 0110110011 BigCluster | 011011001100 BigCluster | 01101100110000 BigCluster | 0110110011000000 NextBigCluster | 1000 NextBigCluster | 10001000 NextBigCluster | gram | gram | gram10 | gramS |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| | mnn 4gramSuff | mmnn 5gramSuff | mmmnn 6克Suff | ammmnn 7克Suff | aammmnn 8克Suff | aaammmnn 9克Suff | daaammmnn 1克Pref | d 2gramPref | da 3gramPref | daa 4gramPref | daaa 5gramPref | daaam6gramPref | daaamm 7克Pref | daaamm 7克Pref | daaamm prevcurr || daaammmnn nextword |。 nextword |。 currnext | daaammmnn |。单词| Daaammmnn下| daaammmnn Xxdshape | Xxxxxxxxx charclass | 1,2,2,2,2,2,2,2,2,2,first-initcap prevnext ||。 t = 0
最佳答案
标签后指定的是特征名称和特征值的列表。
它以稀疏表示而不是表格表示。
BigCluster只是功能之一,它仅与特定示例有关。如果要从头开始训练,则应创建自己的功能。