python - 用python正则表达式匹配URL中的类别？ | news

news

swift - 对NSDateFormatter进行单元测试的好方法是什么？

mysql - MySQL:一次查询以计数2个表中的多列

mysql - 表格本地化-表格的一列

iphone - 核心数据迁移失败并出现错误:第一次迁移后，无法保存新存储

java - 尝试在Mac上卸载Java失败

c++ - Boost Beast:当内容长度不可用时，如何使用自定义主体产生非块状响应？

mysql - MySQL:一次查询以计数2个表中的多列

android - 为什么我在Google Play应用程序(仅适用于应用程序)中的所有屏幕截图均已像素化

linux - 从Git删除敏感数据。 “fatal: ambiguous argument ' rm'”

c# - 格式化托管PowerShell的输出

javascript - RxJS Observables只能由一个订阅者处理吗？

trigonometry - SWIFT触发功能

javascript - 自动聚焦列表项中的表单输入

css - CSS事件菜单

java - 了解Java的引用类: SoftReference, WeakReference和PhantomReference

python - 用python正则表达式匹配URL中的类别？

扫码查看

我想匹配以下网址中的类别：news和politics

请注意，可能有1个或多个类别。可以通过在文本或数字的两边加上/来标识类别。

我试过的

item.url = 'http://www.example.com/news/politics/this-is-article-name-1993591'

compiled_regex = re.compile('/.+(?!/)/')

match = compiled_regex.search(item.url)

回应为/

我想要的（预期结果）：

match.group(0) = `news`
match.group(1) = `politics`

最佳答案

我会使用urllib.parse而不是正则表达式来解析网址等

>>> url = 'http://www.example.com/news/politics/this-is-article-name-1993591'
>>> import urllib.parse

>>> urllib.parse.urlparse(url)
ParseResult(scheme='http',
            netloc='www.example.com',
            path='/news/politics/this-is-article-name-1993591',
            params='',
            query='',
            fragment='')

>>> urllib.parse.urlparse(url).path
'/news/politics/this-is-article-name-1993591'

>>> urllib.parse.urlparse(url).path.split('/')[1:-1]
['news', 'politics']

09-07 17:17