最近在做网页信息提取这方面的,由于没接触过这系列的知识点,所以逛博客,看文档~~看着finallyly大神的博文和文档,边看边学习边总结~~

  • 对网站页面进行信息提取,需要进行页面解析,解析的方法有以下几种:

1、利用HTML标记的分布规律进行解析

2、利用HTML标记间的关系进行解析

3、利用页面的视觉特征进行解析

  需要人工不断地总结调整规则,需要的规则往往比较多,一条规则的加入会对已经成功解析的网页产生影响。因此,保持规则集的一致性是一大难点。

4、利用TABLE标记的布局特性进行解析。比较常用。

  • 在对网页进行解析之前,需要对网页进行规范化处理。也就是,把HTML文档转换为XML文档。

    对HTML文档的整理主要是以下4个方面:

  (1)在除了网页标记tag外的其他地方出现“<”和“>”用&lt;和&gt;替换

  (2)所有标记的属性值放到引号中,如:<a href="http://www.baidu.com">

  (3)所有的标记都是匹配的。如:<div>…</div>

  (4)所有的标记都是正确嵌套的。

HTML规范化工具 -- HtmlParser

  HTML规范化的好处

  规范化的Html代码对一个网站有诸多好处,比如:改版方便、代码容易维护、代码量小、网站打开速度快、适合更多人群阅读等,这里就不一一列举。单从seo优化的角度看,规范化的Html代码更有利用搜索引擎排名。但是很多站长却没有认识到这一点,影响网站在搜索引擎上的排名。

关于XHTML的一些知识点

  • 给网页添加DOCTYPE

  什么是DOCTYPE?

  DOCTYPE是Document Type的简写,明白什么是DOCTYPE了吧!DOCTYPE就是文档类型,用来说明你的HTML或XHTML是什么版本,浏览器会根据您DOCTYPE中定义的DTD(Document Type Definition)来解释页面代码,可想而知,错误的DOCTYPE会出现什么结果。

  XHTML1.0为我们提供了三种DOCTYPE:

  过渡型兼容表格、标识等,对于初学者来说,选择过渡型就可以啦!

  • 设定一个名字空间

在DOCTYPE后面添加如下代码即可:
<html xmlns="http://www.w3.org/1999/xhtml">
Xmlns是XHTML namespace的简写,叫做“名字空间”,通常我们的网页只有<html>,这里为什么会出现xmlns呢?名字空间就是给文档做一个标识,说明这个文档规范是属于谁的。明白了吗?不明白就Pass。

  • 声明语言编码

简体中文网站可定义为:
<meta http-equiv="Content-Type" content="text/html; charset=gb2312"/>
英文网站可定义为:
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>

  • <Head></Head>之间的其他设置

1 . 收藏夹小图标

制作一个16*16的ico图标,命名为favicon.ico,放到网站根目录下,然后把下面的代码放到<Head></Head>之间即可。
<link rel="icon" href="/favicon.ico" type="image/x-icon"/>
<link rel="shortcut icon" href="/favicon.ico" type="image/x-icon"/>

2 . 作者与版权信息

<meta name="author" content="hxstream "/>
<meta name="copyright" content="www.cnblogs.com,版权所有"/>

3 . 站点介绍

<meta name="description" content="简介" />

4 . 站点关键词

<meta content="搜索引擎优化,seo" name="keywords"/>

  • 关闭所有的标签

打开的标签必须关闭,例如<p>www.seo168.com</p>,当然还有一种关闭方式,如:<br/>

  • 属性值用“”括起来

例如:<img height= "80 "……/>

  • 给所有的属性赋值

不正确的写法:<input …… checked/>
正确的写法为:<input …… checked= "checked"/>

  • 所有的XHTML元素及其属性名称用小写

XHTML是大小写敏感的
错误的写法为:<TITLE>www.seo168.com</TITLE>
标准的写法为:<title>www.seo168.com</title>

  • 标签要合理嵌套

不正确的写法:<div><h1>www.seo168.com</div></h1>
正确的写法为:<div><h1>www.seo168.com</h1></div>

  • 特殊字符用编码标识

如 " <" 用 "&lt;"表示," >" 用 "&gt;"表示。

  • 为图片增加alt属性

alt属性指定了当图片不能显示的时候就显示供替换文本。
如:<img src="data:images/logo.gif" alt="seo168为您服务"/>

  • 用结构化的元素输出内容

例如:你想输入三行文本,可以用:
www.seo168.com<br/>www.seo168.com<br/>www.seo168.com
我建议用下面的方式代替上面的方式:
<ul>
<li>www.seo168.com</li>
<li>www.seo168.com</li>
<li>www.seo168.com</li>
</ul>

附录一:相关链接

附录二:特殊字符编码表

字符十进制字符编号实体名字
 ---Unuse
Space ---空格键
--- 惊叹号Exclamation mark
" ; &quot; 双引号Quotation mark
--- 数字标志Number sign
--- 美元标志Dollar sign
--- 百分号Percent sign
&amp; Ampersand
--- 单引号Apostrophe
--- 小括号左边部分Left parenthesis
--- 小括号右边部分Right parenthesis
--- 星号Asterisk
--- 加号Plus sign
--- 逗号Comma
--- 连字号Hyphen
--- 句号Period (fullstop)
--- 斜杠Solidus (slash)
0--- 数字0 Digit 0
1--- 数字1 Digit 1
2--- 数字2 Digit 2
3--- 数字3 Digit 3
4--- 数字4 Digit 4
5--- 数字5 Digit 5
6--- 数字6 Digit 6
7--- 数字7 Digit 7
8--- 数字8 Digit 8
9--- 数字9 Digit 9
--- 冒号Colon
--- 分号Semicolon
&lt; 小于号Less than
--- 等于符号Equals sign
&gt; 大于号Greater than
--- 问号Question mark
--- Commercial at
--- 大写A Capital A
--- 大写B Capital B
C ; --- 大写C Capital C
--- 大写D Capital D
--- 大写E Capital E
--- 大写F Capital F
--- 大写G Capital G
--- 大写H Capital H
--- 大写J Capital I
--- 大写K Capital J
--- 大写L Capital K
--- 大写K Capital L
--- 大写M Capital M
--- 大写N Capital N
--- 大写O Capital O
--- 大写P Capital P
--- 大写Q Capital Q
--- 大写R Capital R
--- 大写S Capital S
--- 大写T Capital T
U ; --- 大写U Capital U
--- 大写V Capital V
--- 大写W Capital W
X ; --- 大写X Capital X
--- 大写Y Capital Y
--- 大写Z Capital Z
--- 中括号左边部分Left square bracket
--- 反斜杠Reverse solidus (backslash )
--- 中括号右边部分Right square bracket
^ ; --- Caret
--- 下划线H orizontal bar (underscore)
--- 尖重音符Acute accent
a ; --- 小写a Small a
--- 小写b Small b
--- 小写c Small c
--- 小写d Small d
--- 小写e Small e
--- 小写f Small f
--- 小写g Small g
--- 小写h Small h
--- 小写i Small i
--- 小写j Small j
--- 小写k Small k
--- 小写l Small l
--- 小写m Small m
--- 小写n Small n
--- 小写o Small o
p ; --- 小写p Small p
q ; --- 小写q Small q
--- 小写r Small r
--- 小写s Small s
--- 小写t Small t
u ; --- 小写u Small u
--- 小写v Small v
--- 小写w Small w
--- 小写x Small x
--- 小写y Small y
--- 小写z Small z
--- 大括号左边部分Left curly brace
--- 竖线Vertical bar
--- 大括号右边部分Right curly brace
--- Tilde
--- --- 未使用Unused
   &nbsp; 空格Nonbreaking space
¡ ¡ &iexcl; Inverted exclamation
¢ ¢ &cent; 货币分标志Cent sign
£ £ &pound; 英镑标志Pound sterling
¤ ¤ &curren ; 通用货币标志General currency sign
¥ ¥ &yen; 日元标志Yen sign
¦ ¦ &brvbar; or &brkbar; 断竖线Broken vertical bar
§ § &sect; 分节号Section sign
¨ ¨ &uml ; or &die; 变音符号Umlaut
© © &copy ; 版权标志Copyright
ª ª &ordf ; Feminine ordinal
« « &laquo; Left angle quote, guillemet left
¬ ¬ &not Not sign
­ ­ &shy; Soft hyphen
® ® &reg; 注册商标标志Registered trademark
¯ ¯ &macr; or &hibar ; 长音符号Macron accent
° ° &deg ; 度数标志Degree sign
± ± &plusmn ; 加或减Plus or minus
² ² &sup2; 上标2 Superscript two
³ ³ &sup3 ; 上标3 Superscript three
´ ´ &acute; 尖重音符Acute accent
µ µ &micro; Micro sign
¶ ¶ &para; Paragraph sign
· · &middot; Middle dot
¸ ¸ &cedil ; Cedilla
¹ ¹ &sup1; 上标1 Superscript one
º º &ordm; Masculine ordinal
» » ; &raquo ; Right angle quote, guillemet right
¼ ¼ &frac14 ; 四分之一Fraction one-fourth
½ ½ &frac12; 二分之一Fraction one-half
¾ ¾ &frac34; 四分之三Fraction three-fourths
¿ ¿ &iquest; Inverted question mark
À À ; &Agrave ; Capital A, grave accent
Á Á &Aacute; Capital A , acute accent
  &Acirc; Capital A , circumflex
àà&Atilde; Capital A, tilde
Ä Ä ; &Auml; Capital A, di?esis / umlaut
Å Å &Aring; Capital A, ring
Æ Æ &AElig; Capital AE ligature
Ç Ç &Ccedil; Capital C, cedilla
È È &Egrave; Capital E, grave accent
É É ; &Eacute; Capital E, acute accent
Ê Ê &Ecirc ; Capital E, circumflex
Ë Ë &Euml; Capital E, di?esis / umlaut
Ì Ì &Igrave; Capital I, grave accent
Í Í &Iacute ; Capital I, acute accent
ΠΠ&Icirc ; Capital I, circumflex
Ï Ï ; &Iuml; Capital I , di?esis / umlaut
РР&ETH; Capital Eth, Icel andic
Ñ Ñ ; &Ntilde; Capital N , tilde
Ò Ò &Ograve; Capital O, grave accent
Ó Ó ; &Oacute; Capital O , acute accent
Ô Ô &Ocirc; Capital O, circumflex
Õ Õ &Otilde; Capital O, tilde
Ö Ö &Ouml; Capital O, di?esis / umlaut
× × &times; 乘号Multiply sign
ؠؠ&Oslash; Capital O, slash
٠٠&Ugrave; Capital U, grave accent
Ú Ú &Uacute; Capital U, acute accent
Û Û &Ucirc; Capital U, circumflex
Ü Ü &Uuml; Capital U, di?esis / umlaut
Ý Ý &Yacute ; Capital Y, acute accent
Þ Þ &TH ORN ; Capital Thorn, Icel andic
ß ß &szlig ; Small sharp s, German sz
à à &agrave ; Small a, grave accent
á á &aacute; Small a, acute accent
â â &acirc; Small a, circumflex
ã ã &atilde; Small a, tilde
ä ä &auml; Small a , di?esis / umlaut
å å &aring; Small a, ring
æ æ &aelig; Small ae ligature
ç ç &ccedil; Small c, cedilla
è è ; &egrave; Small e, grave accent
é é ; &eacute; Small e, acute accent
ê ê &ecirc; Small e, circumflex
ë ë &euml; Small e, di?esis / umlaut
ì ì &igrave; Small i, grave accent
í í &iacute; Small i, acute accent
î î &icirc ; Small i, circumflex
ï ï &iuml; Small i, di?esis / umlaut
ð ð &eth; Small eth, Icelandic
ñ ñ &ntilde; Small n, tilde
ò ò &ograve; Small o, grave accent
ó ó ; &oacute; Small o, acute accent
ô ô ; &ocirc; Small o, circumflex
õ õ &otilde; Small o , tilde
ö ö &ouml; Small o, di?esis / umlaut
÷ ÷ &divide; 除号Division sign
ø ø &oslash; Small o, slash
ù ù &ugrave; Small u, grave accent
ú ú &uacute; Small u, acute accent
û û &ucirc; Small u, circumflex
ü ü &uuml ; Small u, di?esis / umlaut
ý ý &yacute ; Small y, acute accent
þ þ &thorn; Small thorn, Icelandic
ÿ ÿ &yuml; Small y, umlaut
04-14 12:48