我想知道是否存在使用python的urlparse遇到的某些奇怪行为的已知解决方法。
这是python交错器中几行的一些结果:
>>> import urlparse
>>> urlparse.parse_qsl('https://localhost/?code=bork&charlie=brown')
[('https://localhost/?code', 'bork'), ('charlie', 'brown')]
在上面的示例中,为什么第一个值“ https:// localhost /?code”的键是?它不应该只是“代码”吗?注意:parse_qs具有相同的不良行为。
>>> urlparse.urlparse('abcd://location/?code=bork&charlie=brown')
ParseResult(scheme='abcd', netloc='location', path='/?code=bork&charlie=brown', params='', query='', fragment='')
>>> urlparse.urlparse('https://location/?code=bork&charlie=brown')
ParseResult(scheme='https', netloc='location', path='/', params='', query='code=bork&charlie=brown', fragment='')
在上面的示例中,请注意,查询字符串并不总是被放入查询值中。为什么协议很重要?查询字段不应该总是获取查询字符串吗?使用“ ftp”或其他众所周知的协议进行的测试似乎也不令人满意。
最佳答案
urlparse.parse_qsl
(和urlparse.parse_qs
)是用于请求的查询部分(?
之后的字符串)的方法。
也许您想使用一种方法,该方法首先可以理解整个URL(urlparse.urlparse
),然后将查询从结果传递到urlparse_qsl
:
>>> import urlparse
>>> myurl = urlparse.urlparse('https://localhost/?code=bork&charlie=brown')
>>> print myurl
ParseResult(scheme='https', netloc='localhost', path='/', params='', query='code=bork&charlie=brown', fragment='')
>>> print myurl.scheme
https
>>> print urlparse.parse_qs(myurl.query)
{'charlie': ['brown'], 'code': ['bork']}
该方案很重要,因为尽管查询以通用语法存在,但某些协议可能不支持它们。
也可以看看:
http://en.wikipedia.org/wiki/URI_scheme(查看官方注册方案)
关于python - urlparse的奇怪行为,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/13773821/