我对使用BOW特征进行文本分类非常熟悉,其中我们首先找到语料库的词汇量,该词汇量成为特征向量的量。然后,对于每个句子/文档及其所有组成词,我们根据该句子/文档中该词的存在/不存在将其设为0/1。
但是,既然我正在尝试使用每个单词的向量表示形式,那么创建全局词汇表是否必不可少?
最佳答案
假设向量的大小为N(通常在50或500之间)。概括传统的BOW的简单方法是用N个零替换0位(在BOW中),然后用实向量替换1位(在BOW中)(例如Word2Vec)。则特征的大小将为N * | V | (与BOW中的| V |特征向量相比,其中| V |是唱词的大小)。这种简单的概括对于大量的训练实例应该可以正常工作。
为了使特征向量更小,人们使用了各种技术,例如将向量与各种操作进行递归组合。 (请参阅递归/循环神经网络和类似技巧,例如:http://web.engr.illinois.edu/~khashab2/files/2013_RNN.pdf或http://papers.nips.cc/paper/4204-dynamic-pooling-and-unfolding-recursive-autoencoders-for-paraphrase-detection.pdf)
关于text - 如何使用单词的矢量表示(从Word2Vec等获得)作为分类器的功能?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/26569592/