en_core_web_lgen_vectors_web_lg中给定的单词向量有什么区别?键的数量不同:1.1m和685k。我认为这意味着en_vectors_web_lg通过维护形态信息在某种程度上会产生更广泛的覆盖范围,从而产生更独特的标记,因为它们都在公共爬网语料库上训练但具有不同数量的标记。

最佳答案

en_vectors_web_lg软件包具有原始GloVe模型提供的每个向量。 en_core_web_lg模型使用v1.x en_core_web_lg模型中的词汇表,该词汇表从内存中删除在Reddit注释的100亿个单词转储中出现的少于10次的所有条目。

从理论上讲,大多数被删除的向量应该是spaCy标记生成器从不产生的向量。但是,较早的使用完整GloVe向量的实验的得分确实比当前的NER模型稍高---因此,我们有可能实际上由于丢失额外的向量而错过了某些东西。我将对此做更多实验,并可能切换lg模型以包括未修剪的向量表,尤其是现在我们有了md模型,该模型比当前的lg包具有更好的折衷效果。

08-24 21:35