我要处理Wikipedia转储文件。换句话说,我想为每篇文章提取标题,类别和文本内容。我想问的是有什么Java api/工具可以帮助我做到这一点。
提前致谢

最佳答案

Wikipedia转储文件为X​​ML格式。因此,您可以为此使用任何可用的XML工具。

请注意,由于转储文件的大小,SAX解析器通常比DOM解析器效率更高(因为DOM解析器会尝试将整个内容加载到内存表示形式中)。

10-04 16:17