我正在使用BeautifulSoup轻松刮取。

我发现网页中有超过5个要抄袭的div。它们的名称不同,但是具有模式。

这些div是:

divnewthing
divnew
divnewstring


等等

因此,模式是divnew*一种正则表达式。

我正在使用:

soup.find('div', {"class": "divnew"})


在这一刻。

我想以某种方式使用正则表达式。有人可以帮我从这里出去吗?

最佳答案

是的,您也可以通过regular expression pattern

soup.find('div', {"class": re.compile("^divnew")})


或者,一个函数,检查类名是否以divnew开头:

soup.find('div', {"class": lambda x: x and x.startswith("divnew"))})


或者,使用CSS selector

soup.select("div[class^=divnew]")

关于python - 使用Beautifulsoup的类的正则表达式,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/31004430/

10-10 21:41