词的向量表示

  • one-hot:语料库的词项个数为m,则one-hot表示的长度为m,只有一个位置是1,其余都是0
  • distributed representation:假设每个词项有d个特征,d远小于m,用d维向量表示每个词项

CBOW

词的上下文 Context(x)

模型结构

word2vec的简单理解-LMLPHP

输入层

隐藏层

word2vec的简单理解-LMLPHP

输出层

损失函数

结构分析

改进

思路:减少网络的参数个数和每次要更新的参数个数

负采样策略

Hierarchical softmax的CBOW

word2vec的简单理解-LMLPHP

参考文献

Efficient Estimation of Word Representations in Vector Space

word2vec的数学原理

word2vec的负采样

05-23 18:57