问题描述
我从mediawiki下载了category和categorylinks表sql.gz文件,并生成了所需的表:
I downloaded the category and categorylinks table sql.gz files from mediawiki and generated the required tables:
类别和类别链接
请考虑以下类别页面: NoSQL 该页面的父类别是数据库和数据库管理".我如何从两个表中获取此信息?类别表的手册中说明了以下内容,但我无法获取该信息:"
Consider the following category page of: NoSQLThe parent category of this page is Database and Database management. How could I get this information from the two tables?The manual for category table says the following but I am unable to get that information:"
推荐答案
仅类别就没有层次感.使分类工作的是分类页面.因此,您还必须从page
表中获取page_id
才能解决此关系.
Categories alone have no hierachy. It’s the category pages that make the subcategorization work. So you will also have to get the page_id
from the page
table to be able to resolve this relation.
它基本上是这样的:
- 类别的
cat_title
是页面标题. - 在页表中找到
page_title
,获取page_id
- 使用
page_id
获取cl_from
中的类别链接 - 从
cl_to
获取父类别标题 - 从2开始重复
- Category’s
cat_title
is a page title. - Find that
page_title
in the page table, get thepage_id
- Use the
page_id
to get the category link incl_from
- Get the parent category title from
cl_to
- Repeat from 2
这篇关于使用类别和类别链接表查找维基百科类别的子类别的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!