假设我有这个:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<HTML LANG="ja">
<HEAD>
<META http-equiv="Content-Type" content="text/html; charset=Shift_JIS">
<META name="GENERATOR" content="snanail Version 2.18">
<TITLE>-www.example.org-</TITLE>
<STYLE type="text/css">
<!--
H1.TITLE {
font-size : 10 pt;
font-family : "Arial";
color : #FFFFFF;
}
-->
</STYLE>
</HEAD>
<BODY>
<CENTER>
<TABLE BORDER="0" CELLSPACING="1" CELLPADDING="6" ALIGN="CENTER">
<TR>
<TD WIDTH="100">
<TABLE ALIGN="CENTER" CELLPADDING="4" CELLSPACING="1">
<TR>
<TD HEIGHT="100" WIDTH= "68" ALIGN="CENTER" VALIGN="MIDDLE">
<A HREF="001.html" TARGET="_blank"><IMG SRC="001_thumb.png" WIDTH="56" HEIGHT="80" ALT="001_thumb.png" BORDER="0"></A>
</TD>
</TR>
<TR>
<TD HEIGHT="40" ALIGN="CENTER" VALIGN="MIDDLE">
<FONT SIZE="2" COLOR="#FFFFFF">001.jpg</FONT><BR>
<FONT SIZE="2" COLOR="#FFFFFF">300 x 300 (806 KB)</FONT><BR>
</TD>
</TR>
</TABLE>
</TD>
<TD WIDTH="100">
<TABLE ALIGN="CENTER" CELLPADDING="4" CELLSPACING="1">
<TR>
<TD HEIGHT="100" WIDTH= "68" ALIGN="CENTER" VALIGN="MIDDLE">
<A HREF="002.html" TARGET="_blank"><IMG SRC="002_thumb.png" WIDTH="56" HEIGHT="80" ALT="002_thumb.png" BORDER="0"></A>
</TD>
</TR>
<TR>
<TD HEIGHT="40" ALIGN="CENTER" VALIGN="MIDDLE">
<FONT SIZE="2" COLOR="#FFFFFF">002.jpg</FONT><BR>
<FONT SIZE="2" COLOR="#FFFFFF">300 x 300 (627 KB)</FONT><BR>
</TD>
</TR>
</TABLE>
</TD>
</TR>
</TABLE>
</CENTER>
</HTML>
我想找到页面中的所有URL,并执行以下操作:
tree = lxml.html.parse('example.html')
links = tree.xpath('//a/@href')
但我只得到第一个(001.html)。为什么?在使用
getroot()
之后,我尝试在树上手动迭代,似乎只有第一个具有第一个url的表是可见的。我不明白。编辑:我再次测试了我发布的例子,它确实有效,经过一些测试,似乎我删除了头,它的工作。。。可能里面有什么东西破坏了解析器?我不知道。我想解决这个问题的最好方法是搜索文件并删除
<head>
和</head>
之间的任何内容?因为我无法解析它,因为解析没有按预期工作。所以我把头加在这个例子上,让它打破。 最佳答案
使用示例html文件和此脚本:
from lxml import etree
parser = etree.HTMLParser(encoding='utf8')
tree = etree.parse('source.html', parser)
print tree.xpath('//a/@href')
给予:
['001.html', '002.html']