wiki - 我如何获得维基百科页面的子集？ | 我如何获得维基百科页面的子集

我如何获得维基百科页面的子集（例如100MB）？我发现您可以将整个数据集转换为XML，但更像是1或2个演出。我不需要那么多。

我想尝试实现映射减少算法。

话虽如此，如果我可以从任何地方找到价值100兆的文本样本数据，那也很好。例如。 Stack Overflow数据库（如果有）可能是一个不错的大小。我愿意提出建议。

编辑：是不是洪流？我不能让那些人上班。

最佳答案

stackoverflow数据库可用于download。