这个问题已经有了答案:
Finding a nonrecursive DOM subnode in Python using BeautifulSoup
1个答案
我正在用python 3.4中的漂亮汤做一些网络抓取。
现在我在学习过程中遇到了一个问题:
我试图从网页中获取表行,并使用find_all()获取它们,但在表中-有更多的表,其中包含表行!如何才能在BeautifulSoup中仅获取标签的顶级/第一级常规或特定元素?
# Retrieves all the row ('tr') tags in table
my_table.find_all('tr')
顺便说一下,这个问题是这个问题的一个副本(只有那边使用的编程语言是php):Extract only first level paragraphs from html
最佳答案
显然,在find ou all()方法中有一个名为recursive的参数,它默认设置为true。
将其设置为false,使方法仅返回顶级元素。
find_all('tr', recursive=False)
关于python - BeautifulSoup仅提取顶级标签,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/37911009/