自动编码器可用于减少特征向量中的维数 - 据我所知。在文本分类中,特征向量通常是通过字典构建的——它往往非常大。我没有使用自动编码器的经验,所以我的问题是:
最佳答案
现有作品使用自动编码器在句子级别创建模型。基本上在使用 Autoencode 训练模型后,您可以获得一个句子的向量。由于任何文档都由句子组成,因此您可以获得文档的一组向量,并进行文档分类。根据我对各种向量表示(例如从自动编码生成的那些)的经验,这样做可能会给出比词袋分类更糟糕的答案。
关于nlp - 使用自动编码器进行文本分类的特征构建,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/24159098/