我有一个与此类似的数据集:

category 1  category 2  prediction

    X   a   1
    Y   b   0
    Z   b   1
    X   a   1
    Y   a   0
    Z   b   0
    X   b   1
    Y   f   1
    Z   d   1


我们说这是三栏。我想提一下,第1列和第2列是文本功能,而不是数字数据。我的输入数据在category 1中将包含15-20种不同的类型。 category 1中的每种类型都可以在category 2中具有一种类型。例如。 X可以具有两次a类型的条目,也可以具有三次和b类型的条目两次。第三列是输出。我想在这样的数据集上训练模型,最后在训练模型之后,我想传递任何一个category 1category 2,例如:Xa-这应该给我预测的输出10。我打算为此使用逻辑回归。

题:


既然我有文本数据,是否应该使用假人并为每种类型创建一列? (例如,由于我有XYZ,因此我应该创建三个不同的列并分配10
我可以为此使用逻辑回归还是不适合我的应用? (我希望获得预测1的概率)


任何的意见都将会有帮助。

最佳答案

如果您的分类基于每个类别中的对数奇数,则Logistic regression适合。对于二进制分类,其结果与可比方法相差不大。

是的,您应该使用“虚拟”作为分类数据。这是一种电气设计技术中的“一次热编码”,其中,在任何给定时间,群集中的一根导线都将是“热”(有电流)。对于发布的数据,类别1将具有三列,类别2至少具有四列(a,b,d,f)。

关于machine-learning - 具有文本特征的数据集的逻辑回归,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/51850210/

10-12 16:34
查看更多