自动编码器可用于减少特征向量中的维数 - 据我所知。在文本分类中,特征向量通常是通过字典构建的——它往往非常大。我没有使用自动编码器的经验,所以我的问题是:

  • 是否可以使用自动编码器来降低文本分类中的维度? (为什么?/为什么不?)
  • 有没有人做过这个?如果是这样,一个来源会很好。
  • 最佳答案

    现有作品使用自动编码器在句子级别创建模型。基本上在使用 Autoencode 训练模型后,您可以获得一个句子的向量。由于任何文档都由句子组成,因此您可以获得文档的一组向量,并进行文档分类。根据我对各种向量表示(例如从自动编码生成的那些)的经验,这样做可能会给出比词袋分类更糟糕的答案。

    关于nlp - 使用自动编码器进行文本分类的特征构建,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/24159098/

    10-10 18:15