我从enwiki-latest-pagelinks.sql.gz
下载了dumps.wikimedia.org/enwiki/latest/
转储。
我开始将表导入到mysql数据库中:
mysql -D wp_dump -u root -p < enwiki-latest-pagelinks.sql
完全导入该表似乎需要“永远”,它已经运行了两天,但是仍然有进步。
现在,该表中有7亿多行,而数据库表文件非常庞大,超过130G。
谁能告诉我当前
pagelinks
表中有多少行(错误地)?这对我(并且我假设其他人)的计划会很棒。我在Wikipedia上或通过“咨询” Google找不到信息。 最佳答案
从https://stats.wikimedia.org/EN/TablesDatabaseLinks.htm来看,2010年该数字约为3.3亿,此后该数据从未更新过。根据转储文件的大小,它肯定会达到数十亿。
由于在统计终止之前它以每月2%的速度增长,假设稳定增长,那么它将达到大约40亿