Windows下基于python3使用word2vec训练中文维基百科语料(一)

在进行自然语言处理之前，首先需要一个语料，这里选择维基百科中文语料，由于维基百科是 .xml.bz2文件，所以要将其转换成.txt文件，下面就是相关步骤：

步骤一：下载维基百科中文语料

https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

然后解压文件

Windows下基于python3使用word2vec训练中文维基百科语料(一)-LMLPHP

文件夹里是一个这个文件

Windows下基于python3使用word2vec训练中文维基百科语料(一)-LMLPHP

步骤二：安装依赖库

我们需要安装一些依赖库，有numpy、scipy以及gensim，安装gensim依赖于scipy，安装scipy依赖于numpy。我们直接用pip安装numpy，在windows命令行下使用命令：

 pip install numpy

 pip install scipy

 pip install gensim

步骤三：将xml.bz2文件转换成.text文件

注意：我在网上找的代码，通常说会因为python2和python3的版本不同在使用python3进行解压会在output.write(space.join(text) + "\n")这一句出现提示关于byte或str的错误，

但是我用了python3修改的代码，反而出现错误，其实现在下载的语料直接用python2的代码也可以。

*********不过为了有些人可能采用下面代码会出现byte和str的错误，我将之前网上找的对于python3代码的修改依然保留（32-40行）***********************

（1）写代码命名为process_wiki.py

 # -*- coding:utf-8 -*-

 # Author:Gao

 import logging

 import os.path

 import six

 import sys

 import warnings

 warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')

 from gensim.corpora import WikiCorpus

 if __name__ == '__main__':

     program = os.path.basename(sys.argv[0])

     logger = logging.getLogger(program)

     logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')

     logging.root.setLevel(level=logging.INFO)

     logger.info("running %s" % ' '.join(sys.argv))

     # check and process input arguments

     if len(sys.argv) != 3:

         print("Using: python process_wiki.py enwiki.xxx.xml.bz2 wiki.en.text")

         sys.exit(1)

     inp, outp = sys.argv[1:3]

     space = " "

     i = 0

     output = open(outp, 'w',encoding='utf-8')

     wiki = WikiCorpus(inp, lemmatize=False, dictionary={})

     for text in wiki.get_texts():

         # if six.PY3:

         #     output.write(b' '.join(text).decode('utf-8') + '\n')

         # else:

         #     output.write(space.join(text) + "\n")

         output.write(space.join(text) + "\n")

         i=i+1

         if (i%10000==0):

             logger.info("Saved " + str(i) + " articles")

     output.close()

     logger.info("Finished Saved " + str(i) + " articles")

（2）运行代码（在cmd中运行）

首先到自己下载的中文维基百科预料的文件夹下，将自己的语料库和执行文件放在同一个文件夹下，这样方便执行，然后进入放置这两个文件的文件夹下（我的在f盘）

python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text

Windows下基于python3使用word2vec训练中文维基百科语料(一)-LMLPHP

（3）运行结果（运行时间比较长，耐心等待，后面就出结果啦）

Windows下基于python3使用word2vec训练中文维基百科语料(一)-LMLPHP

现在我们就得到了处理后的中文维基百科.txt文档，下一篇我们将进一步对文档进行处理

相关参考：https://www.jianshu.com/p/98d84854f7a3