我有几个问题要问
1)在svmlight样式的数据中有(目标特征:值特征:值...)
我知道feature
和value
是什么,但是target
是什么?这是什么意思?我想知道这一点,因为我打算用写入的数据制作一个文本文件。
2)在一个文件中也有多行(目标要素:值要素:值)
每行代表一个文档吗?可以说我有50个文档,所以每一行代表一个文档?
3)在使用存储在其中的svmlight-style
数据制作此文本文件后,我想将其传递到Naive Bayes Classifier
中的MALLET
中。如何解决?
最佳答案
根据SVMLight官方站点,培训集由以下几行组成
<line> .=. <target> <feature>:<value> <feature>:<value> ... <feature>:<value> # <info>
每行定义如下:
<target> .=. +1 | -1 | 0 | <float>
<feature> .=. <integer> | "qid"
<value> .=. <float>
<info> .=. <string>
“在分类模式下,目标值表示示例的类别。目标值+1分别表示正例,-1表示负例。因此,例如,
-1 1:0.43 3:0.12 9284:0.2 # abcdef
指定一个否定示例,其特征编号1的值为0.43,特征编号3的值为0.12,特征编号9284的值为0.2,所有其他特征的值为0。此外,字符串abcdef与向量一起存储,可以用作为用户定义的内核提供其他信息的方式。类别标签为0表示此示例应使用转导进行分类。通过转导分类的示例的预测将写入到-l选项指定的文件中。预测的顺序与训练数据中的顺序相同。 ”
有关详细信息,请参见官方网站http://svmlight.joachims.org/。