我要处理Wikipedia转储文件。换句话说,我想为每篇文章提取标题,类别和文本内容。我想问的是有什么Java api/工具可以帮助我做到这一点。提前致谢 最佳答案 Wikipedia转储文件为XML格式。因此,您可以为此使用任何可用的XML工具。请注意,由于转储文件的大小,SAX解析器通常比DOM解析器效率更高(因为DOM解析器会尝试将整个内容加载到内存表示形式中)。