python - 仅抓取特定标签，而没有来自该特定标签中嵌套标签的详细信息

我有一个页面，其结构类似于

<body>
    <article>  <!--article no 1-->
        <h3>
        <h2>
            <h1>
                <a>  <!--first 'a' tag-->

        <article> <!--article no 2-->
            <h1>
            <h2>
                <a>  <!--second 'a' tag-->
        </article>
    </article>
</body>

现在我想要的是我要提取文章中的所有“ a”标签，但要确保没有“ a”标签来自任何嵌套

那是

articles = browser.find_elements_by_tag_name("article")
for i in article:
    print(i.find_elements_by_tag_name("a")

对于第一篇文章
现在，i.find_elements将在此商品标签内返回所有“ a”标签，而该标签还将嵌套在“商品标签”内，而“商品标签”本身嵌套在当前商品标签中，但我不希望这样

我想在文章2或任何嵌套文章中不对文章1'a'标签调用find_elements

最佳答案

如果要从非嵌套文章链接，请尝试：

articles = browser.find_elements_by_tag_name('article'):
for article in articles:
    print(article.find_elements_by_xpath('./*[not(descendant-or-self::article)]/descendant-or-self::a'))

关于python - 仅抓取特定标签，而没有来自该特定标签中嵌套标签的详细信息，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/52160845/