文章目录
一. word2vec向量计算
对于B
大家的第一反应是B很有可能是一个贬义词,比如“坏”“低劣”等。但是这个推论是错误的。好和坏虽然是反义词,距离应该比较大,但是不应该距离这么大(A和B的夹角已经是最大可能了)。好和坏都是形容词,起码词性一样。
考虑到C和A词性不同、夹角已经90度了,说明A和B的词义应该有着巨大的不同。因此随便猜一个名词都是合理的,比如你可以猜北京、清华、皇家马德里、旧金山,都没问题。
二. word2vec的原理
1. 总体思路
2. 基于word2vec的原理
- 训练词向量:用包含大量地理名称的语料库训练 word2vec 模型,得到地理名称的词向量。
- 分析向量关系
以“湖北 - 湖南 + 长沙 = 武汉”为例:“湖北”和“湖南”在地理位置上相邻,并且都是省份。 “长沙”是“湖南”的省会,“武汉”是“湖北”的省会。 当进行向量运算时,从向量空间的角度来看,“湖北”向量减去“湖南”向量(表示两者在某些语义特征上的差异),再加上“长沙”向量(因为省会与省份有紧密联系),得到的结果向量在向量空间中接近“武汉”向量。
3. 寻找类似例子的思路
首先找出其他相邻省份的组合,例如“山东”和“江苏”是相邻省份,然后找出对应的省会,“山东”的省会是“济南”,“江苏”的省会是“南京”,推测“山东 - 江苏 + 南京”在向量空间中的结果可能接近“济南”。
除了相邻省份,还可以考虑其他地理关系,比如同属于一个地理区域的省份。例如,“广东”和“广西”都属于华南地区。对应的省会分别是“广州”和“南宁”,可以推测“广东 - 广西 + 南宁”在向量空间中的结果可能接近“广州”。
三. 训练写诗
四. Word2vec的逻辑
Word2vec的核心是
五. 什么是预训练语言模型
预训练语言模型是采用迁移学习的方法,通过无监督学习从大规模的数据中获得与具体任务无关的预训练模型,然后用训练好的预训练模型提高下游任务性能的一种数据增强方法。
- 训练过程
- 应用过程
(迁移学习是一种机器学习方法,其核心思想是将从一个或多个源任务中学习到的知识和经验,应用到目标任务中,帮助目标任务更好地学习和预测。)
六. GPT和BERT模型
GPT和BERT都使用了Transformer架构,GPT使用了Transformer架构的decoder(解码器)部分,BERT使用了Transformer架构的encoder(编码器)部分。