当我阅读Tomas Mikolov的论文之一时:http://arxiv.org/pdf/1301.3781.pdf
我对“连续词袋模型”部分有一个关注:
首先提出的体系结构类似于前馈NNLM,其中去除了非线性隐藏层,并且为所有单词共享了投影层(不仅仅是投影矩阵)。因此,所有单词都投影到相同位置(对它们的向量进行平均)。
我发现有人提到Word2Vec模型中有一个隐藏层,但据我了解,该模型中只有一个投影层。此投影层与隐藏层的功能相同吗?
另一个问题是如何将输入数据投影到投影层中?
“所有单词都共享投影层(不仅仅是投影矩阵)”,这是什么意思?
最佳答案
从original paper的3.1节中可以明显看出,没有隐藏层:
“第一个提出的架构类似于前馈NNLM
删除非线性隐藏层,并为所有单词共享投影层”。
关于第二个问题(共享投影层的含义是什么),这意味着您只考虑一个向量,这是上下文中所有单词的向量的质心。因此,您只考虑一个向量,而不是使用n-1
个词向量。这就是为什么将其称为“连续单词袋”(因为在n-1
大小的上下文中失去了单词顺序)。