在word2vec中,经过训练,我们得到两个权重矩阵:1.输入隐藏权重矩阵; 2.隐藏输出权重矩阵。人们将使用隐藏输入的权重矩阵作为单词向量(每一行对应一个单词,即单词向量)。这让我感到困惑:
为什么人们使用输入隐藏权重矩阵作为单词向量,而不使用隐藏输出权重矩阵。
为什么我们不只是将softmax激活功能添加到隐藏层而不是输出层,从而避免了耗时。
另外,将理解关于如何可以这样获得单词向量的直觉的澄清说明。
最佳答案
关于输入-隐藏权重矩阵和隐藏-输出权重矩阵,有一篇有趣的研究论文。
Mitra等人,“用于文档排名的双重嵌入空间模型”,arXiv 2016.(https://arxiv.org/pdf/1602.01137.pdf)。
与您的问题类似,本文研究了这两个权重矩阵的不同之处,并声称它们编码的单词具有不同的特征。
总体而言,根据我的理解,根据您的数据和要解决的问题,您可以选择使用输入隐藏权重矩阵(惯例),隐藏输出权重矩阵或组合的词嵌入形式。