我如何获得维基百科页面的子集(例如100MB)?我发现您可以将整个数据集转换为XML,但更像是1或2个演出。我不需要那么多。
我想尝试实现映射减少算法。
话虽如此,如果我可以从任何地方找到价值100兆的文本样本数据,那也很好。例如。 Stack Overflow数据库(如果有)可能是一个不错的大小。我愿意提出建议。
编辑:是不是洪流?我不能让那些人上班。
最佳答案
stackoverflow数据库可用于download。
我如何获得维基百科页面的子集(例如100MB)?我发现您可以将整个数据集转换为XML,但更像是1或2个演出。我不需要那么多。
我想尝试实现映射减少算法。
话虽如此,如果我可以从任何地方找到价值100兆的文本样本数据,那也很好。例如。 Stack Overflow数据库(如果有)可能是一个不错的大小。我愿意提出建议。
编辑:是不是洪流?我不能让那些人上班。
最佳答案
stackoverflow数据库可用于download。