我正忙着分析craigslist的rss提要以提取位置信息。
我使用feedparser将脚本解析为条目和条目描述。不幸的是,地址信息包含在描述部分的不规则标记中。
地址包含在如下部分中:

<!-- CLTAG xstreet0=11832 se 318pl  -->
<!-- CLTAG xstreet1= -->
<!-- CLTAG city=auburn -->
<!-- CLTAG region=wa -->
11832 se 318pl

feedparser不喜欢这些cltags。我试图用regex捕获第一行代码,如下所示:
addressStart = r'!-- CLTAG xstreet0='
addressEnd = r'-->'

prog = re.compile(addressStart(.*?)addressEnd)
result = prog.match(string)

……但那没用。我做错什么了以下是我正在使用的rss提要的链接“http://seattle.craigslist.org/see/apa/index.rss”
非常感谢您的帮助!

最佳答案

那是一些无效的语法。除非字符串被引用,否则不能连接/格式化字符串。尝试:

addressStart = r'!-- CLTAG xstreet0='
addressEnd = r'-->'

prog = re.compile(addressStart + r'(.*?)' + addressEnd)
result = prog.match(string)

10-05 23:39