我下载了wikipedia dumps(在this page上的第一个torrent),并试图通过将它们存储在python字典中来索引所有链接。我将链接作为目的地列表存储在字典中,并带有当前页的键。然而,当我处理转储文件时,我最终得到了一个MemoryError,所以我决定给每个页面分配一个整数ID,这让我走得更远,但最终还是得到了一个MemoryError没有这个我能做些什么?我宁愿把这些都记在记忆里。由于我的代码相当长,所以我发布了它here

最佳答案

您应该开始查看数据库,以便为您的id和相关链接建立索引。
首先,您可以尝试SqliteMySQL
这里有一个起点at python database handling.
我个人喜欢将Postgresql与python模块psycopg2结合使用

09-10 09:24
查看更多