我一直在寻找最大的熵分类实现,该实现可以处理500个类和1000个特征的输出大小。我的训练数据大约有30,000,000行。
我曾尝试使用MegaM(64位R maxent软件包),它是爱丁堡大学的maxent工具,但正如预期的那样,它们都无法处理数据量。但是,对于这种性质的nlp任务来说,数据集的大小似乎并不算太​​高。
我应该采用什么技巧?或对我可以使用的工具包有何建议?
我试图在具有8GB RAM的64位Windows机器上运行此程序,并在需要时使用Cygwin。

最佳答案

Vowpal Wabbit当前被认为是最快的大规模学习者。 LibLinear是替代方法,但是我不确定它是否可以处理3e10元素的矩阵。

请注意,术语“ MaxEnt”几乎仅由NLP人员使用。机器学习的人们将其称为逻辑回归或logit,因此如果您进行搜索,可能会发现比搜索MaxEnt时更多的工具。

10-01 15:30