Closed. This question needs to be more focused。它当前不接受答案。
想改善这个问题吗?更新问题,使其仅通过editing this post专注于一个问题。
2年前关闭。
我正计划建立性别分类器。我知道两个流行的模型是tf-idf和word2vec。
尽管tf-idf专注于单词在文档中的重要性以及文档的相似性,而word2vec则更多地关注单词之间的关系以及它们之间的相似性。
但是,主题似乎都不适合构建用于性别分类的矢量特征。是否有其他适合该任务的替代矢量化模型?
想改善这个问题吗?更新问题,使其仅通过editing this post专注于一个问题。
2年前关闭。
我正计划建立性别分类器。我知道两个流行的模型是tf-idf和word2vec。
尽管tf-idf专注于单词在文档中的重要性以及文档的相似性,而word2vec则更多地关注单词之间的关系以及它们之间的相似性。
但是,主题似乎都不适合构建用于性别分类的矢量特征。是否有其他适合该任务的替代矢量化模型?
最佳答案
是的,w2v还有另一种选择:GloVe。
GloVe代表全局矢量嵌入。
作为以前使用过该技术取得良好效果的人,我建议使用GloVe。
GloVe不仅通过查看局部窗口,而且考虑更大的宽度(大于30的大小)来优化训练神经词的嵌入,从而将更深层次的语义嵌入到嵌入中。
使用手套,可以很容易地建立诸如以下的关系的模型:X[man] - X[woman] = X[king] - X[queen]
,这些都是矢量。
鸣谢:GloVe GitHub页面(在下面链接)。
您可以训练自己的GloVe嵌入,也可以使用其重新训练的模型。即使对于特定领域,通用模型似乎也可以很好地运行,尽管如果您自己训练模型,将会从模型中获得更多收益。请查看GitHub页面以获取有关如何训练自己的模型的说明。这很容易。
补充阅读:
GloVe: Global Vectors for Word Representation
GloVe repository
09-08 11:53