

  • word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的距离。
  • 它将term转换成向量形式,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。
  • word2vec计算的是余弦值,距离范围为0-1之间,值越大代表两个词关联度越高。
  • 词向量:用Distributed Representation表示词,通常也被称为“Word Representation”或“Word Embedding(嵌入)”。


该语料编码格式UTF-8,存储为一行,语料训练信息:training on 85026035 raw words (62529137 effective words) took 197.4s, 316692 effective words/s


-train 训练数据
-output 结果输入文件,即每个词的向量
-cbow 是否使用cbow模型,0表示使用skip-gram模型,1表示使用cbow模型,默认情况下是skip-gram模型,cbow模型快一些,skip-gram模型效果好一些
-size 表示输出的词向量维数
-window 为训练的窗口大小,8表示每个词考虑前8个词与后8个词(实际代码中还有一个随机选窗口的过程,窗口大小<=5)
-negative 表示是否使用NEG方,0表示不使用,其它的值目前还不是很清楚
-hs 是否使用HS方法,0表示不使用,1表示使用
-sample 表示 采样的阈值,如果一个词在训练样本中出现的频率越大,那么就越会被采样
-binary 表示输出的结果文件是否采用二进制存储,0表示不使用(即普通的文本存储,可以打开查看),1表示使用,即vectors.bin的存储类型
-alpha 表示 学习速率
-min-count 表示设置最低频率,默认为5,如果一个词语在文档中出现的次数小于该阈值,那么该词就会被舍弃
-classes 表示词聚类簇的个数,从相关源码中可以得出该聚类是采用k-means



 # -*- coding: utf-8 -*-

时间:2016年5月2日 18:00:00
""" from gensim.models import word2vec
import logging # 主程序
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
sentences = word2vec.Text8Corpus("data/text8") # 加载语料
model = word2vec.Word2Vec(sentences, size=200) # 训练skip-gram模型; 默认window=5 # 计算两个词的相似度/相关程度
y1 = model.similarity("woman", "man")
print u"woman和man的相似度为:", y1
print "--------\n" # 计算某个词的相关词列表
y2 = model.most_similar("good", topn=20) # 20个最相关的
print u"和good最相关的词有:\n"
for item in y2:
print item[0], item[1]
print "--------\n" # 寻找对应关系
print ' "boy" is to "father" as "girl" is to ...? \n'
y3 = model.most_similar(['girl', 'father'], ['boy'], topn=3)
for item in y3:
print item[0], item[1]
print "--------\n" more_examples = ["he his she", "big bigger bad", "going went being"]
for example in more_examples:
a, b, x = example.split()
predicted = model.most_similar([x, b], [a])[0][0]
print "'%s' is to '%s' as '%s' is to '%s'" % (a, b, x, predicted)
print "--------\n" # 寻找不合群的词
y4 = model.doesnt_match("breakfast cereal dinner lunch".split())
print u"不合群的词:", y4
print "--------\n" # 保存模型,以便重用
# 对应的加载方式
# model_2 = word2vec.Word2Vec.load("text8.model") # 以一种C语言可以解析的形式存储词向量
model.save_word2vec_format("text8.model.bin", binary=True)
# 对应的加载方式
# model_3 = word2vec.Word2Vec.load_word2vec_format("text8.model.bin", binary=True) if __name__ == "__main__":


<span style="color:#FF0000;">woman和man的相似度为: 0.699695936218
和good最相关的词有: bad 0.721469461918
poor 0.567566931248
safe 0.534923613071
luck 0.518905758858
courage 0.510788619518
useful 0.498157411814
quick 0.497716665268
easy 0.497328162193
everyone 0.485905945301
pleasure 0.483758479357
true 0.482762247324
simple 0.480014979839
practical 0.479516804218
fair 0.479104012251
happy 0.476968646049
wrong 0.476797521114
reasonable 0.476701617241
you 0.475801795721
fun 0.472196519375
helpful 0.471719056368
-------- "boy" is to "father" as "girl" is to ...? mother 0.76334130764
grandmother 0.690031766891
daughter 0.684129178524
-------- 'he' is to 'his' as 'she' is to 'her'
'big' is to 'bigger' as 'bad' is to 'worse'
'going' is to 'went' as 'being' is to 'was'
-------- 不合群的词: cereal
--------</span> 2016-5-2 18:58:24,185 : INFO : saving Word2Vec object under text8.model, separately None
2016-5-2 18:58:24,185 : INFO : storing numpy array 'syn1neg' to text8.model.syn1neg.npy
2016-5-2 18:58:24,235 : INFO : not storing attribute syn0norm
2016-5-2 18:58:24,235 : INFO : storing numpy array 'syn0' to text8.model.syn0.npy
2016-5-2 18:58:24,278 : INFO : not storing attribute cum_table
2016-5-2 18:58:25,083 : INFO : storing 71290x200 projection weights into text8.model.bin


(1).中科院自动化所的中英文新闻语料库 http://www.datatang.com/data/13484
(2).搜狗的中文新闻语料库 http://www.sogou.com/labs/dl/c.html
(3).李荣陆老师的中文语料库 http://www.datatang.com/data/11968
(4).谭松波老师的中文文本分类语料 http://www.datatang.com/data/11970
(5).网易分类文本数据 http://www.datatang.com/data/11965
(6).中文文本分类语料 http://www.datatang.com/data/11963
(7).更全的搜狗文本分类语料 http://www.sogou.com/labs/dl/c.html
(8).2002年中文网页分类训练集 http://www.datatang.com/data/15021






原始语料 http://pan.baidu.com/s/1nviuFc1
训练语料 http://pan.baidu.com/s/1kVEmNTd

