1 背景

2 三种词向量

3 实验和结论

3.1 影响因素一：训练数据规模

在许多任务中，供充足的数据，GloVe这些词向量可匹配BERT

3.2 影响因素二：语言的特性

3.2.1 Complexity of setence structure

NER: 实体占据几个token （George Washington）

Sentiment analysis：句子依存分析中依赖标记对之间的平均距离

3.2.2 Ambiguity in word usage

NER: 实体有几个标签（George Washington可以作为人名、地名、组织名）

Sentiment analysis：
\begin{array}{l}
H\left( {\frac{1}{{\left| S \right|}}\sum\limits_{w \in S} {p\left( { + 1\left| w \right.} \right)} } \right) \
{\rm{where }}H\left( p \right) = - p{\log _2}\left( p \right) - \left( {1 - p} \right){\log _2}\left( {1 - p} \right) \
\end{array}

3.2.3 Prevalence of unseen words

NER: token出现次数得倒数

Sentiment analysis：
给定一个句子，句子中未在训练集中出现token占比

文本结构复杂度高和单词歧义性方面: BERT更好

未登录词方面: GloVe 更好

总结

大量训练数据和简单语言的任务中，考虑算力和设备等，GloVe 代表的 Non-Contextual embeddings 是个不错的选择

对于文本复杂度高和单词语义歧义比较大的任务，BERT代表的 Contextual embeddings 有明显的优势。