我从http://download.wikipedia.com/enwiki/latest/enwiki-latest-pages-articles.xml.bz2下载了Wikipedia转储。将其解压缩到enwiki.xml
并运行php importDump.php < enwiki.xml
。大约需要2天才能完成。不知何故,我的本地mediawiki的文章/页面/类别比在线wiki少得多。select count(*) from page;
只给我691716
。另一个很好的例子是本地Mediawiki上缺少页面United States。
我还尝试从https://en.wikipedia.org/wiki/Special:Export导出一个小的xml,并使用importDump.php将xml插入MySQL。结果看起来不错。没有页面丢失。
1.我是否下载了错误的Wikipedia映像,或者xml很大时导入过程出了点问题?
我还根据this question on Stackoverflow尝试了mwdumper.jar和perl脚本。即使我将页表更改为具有page_counter列,但所有文章都缺少其内容。每页都说:
目前在该页面没有内容。
2. mwimport.perl和mwdumper.jar是否已过期?
3.从哪里可以获得完整的Wikipedia转储,如何将转储正确导入MySQL?
谢谢。
最佳答案
您可以在以下位置找到所有Wikipedia(以及同级项目)转储:
https://dumps.wikimedia.org/backup-index.html
特别是,如果您正在寻找英文维基百科:
https://dumps.wikimedia.org/enwiki/
在这里,您可以根据需要找到几个转储。特别是,我使用“ pages-articles”,其中包含所有名称空间中所有页面的最新修订:
https://dumps.wikimedia.org/enwiki/20190901/enwiki-20190901-pages-articles.xml.bz2
还应考虑到新的转储大约每月产生一次。