我从http://download.wikipedia.com/enwiki/latest/enwiki-latest-pages-articles.xml.bz2下载了Wikipedia转储。将其解压缩到enwiki.xml并运行php importDump.php < enwiki.xml。大约需要2天才能完成。不知何故,我的本地mediawiki的文章/页面/类别比在线wiki少得多。

select count(*) from page;只给我691716。另一个很好的例子是本地Mediawiki上缺少页面United States

我还尝试从https://en.wikipedia.org/wiki/Special:Export导出一个小的xml,并使用importDump.php将xml插入MySQL。结果看起来不错。没有页面丢失。

1.我是否下载了错误的Wikipedia映像,或者xml很大时导入过程出了点问题?

我还根据this question on Stackoverflow尝试了mwdumper.jar和perl脚本。即使我将页表更改为具有page_counter列,但所有文章都缺少其内容。每页都说:


  目前在该页面没有内容。


2. mwimport.perl和mwdumper.jar是否已过期?

3.从哪里可以获得完整的Wikipedia转储,如何将转储正确导入MySQL?

谢谢。

最佳答案

您可以在以下位置找到所有Wikipedia(以及同级项目)转储:

https://dumps.wikimedia.org/backup-index.html

特别是,如果您正在寻找英文维基百科:

https://dumps.wikimedia.org/enwiki/

在这里,您可以根据需要找到几个转储。特别是,我使用“ pages-articles”,其中包含所有名称空间中所有页面的最新修订:

https://dumps.wikimedia.org/enwiki/20190901/enwiki-20190901-pages-articles.xml.bz2

还应考虑到新的转储大约每月产生一次。

09-28 15:06