我目前正在从事一个项目,该项目涉及寻找与某个关键字相关的“知识领域”。我计划使用DMOZ进行此操作。
例如,“布拉德·皮特(Brad Pitt)”

Arts: People: P: Pitt, Brad: Fan Pages (10)

Arts: People: P: Pitt, Brad: Articles and Interviews (5)

Arts: People: P: Pitt, Brad (4)

Arts: People: P: Pitt, Brad: Image Galleries (2)

Arts: People: P: Pitt, Brad: Movies (2)


等等...

我有DMOZ网站上的structure.rdf.u8转储。有人向我提到,如果我不需要URL,仅此文件就足够了(我不需要网站,只需要与关键字有关的类别)。还是我还需要内容文件?

此外,我想知道使用Python(任何库)解析结构文件的最佳方法。我对XML没有任何了解,尽管我对Python很好。

最佳答案

我从https://github.com/kremso/dmoz-parser开始
并做了一个简单的主题过滤器:
https://github.com/lawrencecreates/dmoz-parser/blob/master/sample.py#L6

class LawrenceFilter:
  def __init__(self):
    self._file = open("seeds.txt", 'w')

  def page(self, page, content):
      if page != None and page != "":
          topic = content['topic']
          if topic.find('United_States/Kansas/Localities/L/Lawrence') > 0 :
              self._file.write(page + "\n")
              print "found page %s in topic %s" % (page , topic)

  def finish(self):
    self._file.close()

关于python - 在Python中解析DMOZ转储以进行类别查询,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/18044438/

10-12 15:53