我将是第一个承认我不是世界上最聪明的人,但是我对此感到茫然。

我想访问English Wiktionary项目的单词和每个单词的详细信息。
我看到他们进行数据转储,并感到非常兴奋。持续了3秒钟。
从那以后,我所做的就是在沮丧和刺激中发誓和吸烟。

我正在使用Windows 7。
我已经安装了xampp的最新版本(64位,安装在根目录下)。
我已经安装了最新的Java DK。
我将Xampp和JDK设置为以管理员身份运行。
我抓到了文章页面文件。
我已经解压了。
我已经使用了mwxml2sql工具。
我无法运行它(无论我尝试了什么设置/标志)。
我使用了mwxml2sql工具的GUI版本。
它运行-然后在4300行出错。
该错误与name_title中的重复键有关。

我看过wikokit-但这似乎落后了几年。

我很茫然。

我已经研究了在重复键错误之前确实进入数据库的数据。
我可以看到一些Blob格式的数据。
我如何通过php访问该信息?

有没有像样的指南(如“白痴”:D)?
我真的必须获取所有文件,安装Wiki,解析文件吗?
我要如何处理重复密钥问题(不是像我可以打开sql文件并找到相关行一样!)?

因此,请-有没有人这样做或知道这样做的方法?
我唯一能想到的就是实际尝试抓取该网站-我宁愿不这样做(维基小组也不愿这样做)。

如果相关的话-我特别关注字词形式,PoS,发音,定义,任何短语和相关词。
诸如词源学之类的东西会很好,但并不那么重要。

如果有建议,是的,我看过WordNet(设法找到一个mysql dump,并使其正常工作)。我也看到过像MRC和CMU dict这样的资源-但都没有正确的权限。这就是为什么维基词典看起来如此吸引人的原因。但似乎格式/转储远非友好:(

那么,有什么帮助或想法吗?
替代资源,指南,演练...都将有所帮助。
另外,如果您可以告诉我是什么导致了错误,如何解决该错误,以及如何访问单词数据,那就太好了。

真诚的你-沮丧。

最佳答案

我看过wikokit-但这似乎落后了几年。
  


不,wikokit项目还活着:)链接:https://github.com/componavt/wikokit

您可以下载已解析的英语Wiktionary数据库:http://whinger.krc.karelia.ru/soft/wikokit/index.html将SQL转储文件上载到MySQL,并播放从英语Wiktionary中提取的定义,同义词和翻译。

10-08 01:44