词的向量表示
- one-hot:语料库的词项个数为m,则one-hot表示的长度为m,只有一个位置是1,其余都是0
- distributed representation:假设每个词项有d个特征,d远小于m,用d维向量表示每个词项
CBOW
词的上下文 Context(x)
模型结构
输入层
隐藏层
输出层
损失函数
结构分析
改进
思路:减少网络的参数个数和每次要更新的参数个数
负采样策略
Hierarchical softmax的CBOW
参考文献
Efficient Estimation of Word Representations in Vector Space