无论在开发中,还是在面试时或者技术讨论时,安全性都是需要深入了解及掌握的。目标本教程目标是使您了解应该如何保护自己构建的 Web 应用程序。讲解如何防御最常见的安全威胁:SQL 注入、操纵 GET 和 POST 变量、缓冲区溢出攻击、跨站点脚本攻击、浏览器内的数据操纵和远程表单提交。安全性快速简介Web 应用程序最重要的部分是什么?根据回答问题的人不同,对这个问题的答案可能是五花八门。业务人员需要可靠性和可伸缩性。IT 支持团队需要健壮的可维护的代码。最终用户需要漂亮的用户界面和执行任务时的高性能。但是,如果回答 “安全性”,那么每个人都会同意这对 Web 应用程序很重要。但是,大多数讨论到此就打住了。尽管安全性在项目的检查表中,但是往往到了项目交付之前才开始考虑解决安全性问题。采用这种方式的 Web 应用程序项目的数量多得惊人。开发人员工作几个月,只在最后才添加安全特性,从而让 Web 应用程序能够向公众开放。结果往往是一片混乱,甚至需要返工,因为代码已经经过检验、单元测试并集成为更大的框架,之后才在其中添加安全特性。添加安全性之后,主要组件可能会停止工作。安全性的集成使得原本顺畅(但不安全)的过程增加额外负担或步骤。本教程提供一种将安全性集成到 主题包括:SQL 注入攻击操纵 GET 字符串缓冲区溢出攻击跨站点脚本攻击(XSS)浏览器内的数据操纵远程表单提交Web 安全性 101在讨论实现安全性的细节之前,最好从比较高的角度讨论 Web 应用程序安全性。本节介绍安全哲学的一些基本信条,无论正在创建何种 Web 应用程序,都应该牢记这些信条。这些思想的一部分来自 Chris Shiflett(他关于 规则 1:绝不要信任外部数据或输入关于 Web 应用程序安全性,必须认识到的第一件事是不应该信任外部数据。外部数据(outside data) 包括不是由程序员在 例如,下面的数据元素可以被认为是安全的,因为它们是在 清单 1. 安全无暇的代码 [$arrayUsers = array(’tmyer’, ‘tom’, ‘tommy’);define(”GREETING”, ‘hello there’ . $myUsername); [/但是,下面的数据元素都是有瑕疵的。清单 2. 不安全、有瑕疵的代码 [$arrayUsers = array($myUsername, ‘tom’, ‘tommy’); //tainted!define(”GREETING”, ‘hello there’ . $myUsername); //tainted! [/为什么第一个变量 $myUsername 是有瑕疵的?因为它直接来自表单 POST。用户可以在这个输入域中输入任何字符串,包括用来清除文件或运行以前上传的文件的恶意命令。您可能会问,“难道不能使用只接受字母 A-Z 的客户端(JavaScript)表单检验脚本来避免这种危险吗?”是的,这总是一个有好处的步骤,但是正如在后面会看到的,任何人都可以将任何表单下载到自己的机器上,修改它,然后重新提交他们需要的任何内容。解决方案很简单:必须对 $_POST['username'] 运行清理代码。如果不这么做,那么在使用 $myUsername 的任何其他时候(比如在数组或常量中),就可能污染这些对象。对用户输入进行清理的一个简单方法是,使用正则表达式来处理它。在这个示例中,只希望接受字母。将字符串限制为特定数量的字符,或者要求所有字母都是小写的,这可能也是个好主意。清单 3. 使用户输入变得安全 [$arrayUsers = array($myUsername, ‘tom’, ‘tommy’); //clean!define(”GREETING”, ‘hello there’ . $myUsername); //clean!function cleanInput($input){$clean = strtolower($input);$clean = preg_replace(”/[^a-z]/”, “”, $clean);$clean = substr($clean,0,12);return $clean;}[/规则 2:禁用那些使安全性难以实施的 已经知道了不能信任用户输入,还应该知道不应该信任机器上配置 要检查的第二个设置是错误报告级别。在开发期间,希望获得尽可能多的错误报告,但是在交付项目时,希望将错误记录到日志文件中,而不是显示在屏幕上。为什么呢?因为恶意的黑客会使用错误报告信息(比如 SQL 错误)来猜测应用程序正在做什么。这种侦察可以帮助黑客突破应用程序。为了堵住这个漏洞,需要编辑 规则 3:如果不能理解它,就不能保护它一些开发人员使用奇怪的语法,或者将语句组织得很紧凑,形成简短但是含义模糊的代码。这种方式可能效率高,但是如果您不理解代码正在做什么,那么就无法决定如何保护它。例如,您喜欢下面两段代码中的哪一段?清单 4. 使代码容易得到保护 [$input = (isset($_POST['username']) ? $_POST['username']:”);//unobfuscated code$input = ”;if (isset($_POST['username'])){$input = $_POST['username'];}else{$input = ”;}[/在第二个比较清晰的代码段中,很容易看出 $input 是有瑕疵的,需要进行清理,然后才能安全地处理。规则 4:“纵深防御” 是新的法宝本教程将用示例来说明如何保护在线表单,同时在处理表单的 纵深防御不只是一种好思想,它可以确保您不会陷入严重的麻烦。既然已经讨论了基本规则,现在就来研究第一种威胁:SQL 注入攻击。防止 SQL 注入攻击在 SQL 注入攻击 中,用户通过操纵表单或 GET 查询字符串,将信息添加到数据库查询中。例如,假设有一个简单的登录数据库。这个数据库中的每个记录都有一个用户名字段和一个密码字段。构建一个登录表单,让用户能够登录。清单 5. 简单的登录表单 [这个表单接受用户输入的用户名和密码,并将用户输入提交给名为 verify.清单 6. 不安全的 [$username = $_POST['user'];$pw = $_POST['pw'];$sql = “select count(*) as ctr from users whereusername=’”.$username.”‘ and password=’”. $pw.”‘ limit 1″;$result = mysql_query($sql);while ($data = mysql_fetch_object($result)){if ($data->ctr == 1){ //they’re okay to enter the application! $okay = 1;}}if ($okay){$_SESSION['loginokay'] = true;header(”index.}else{header(”login.}?> [/这段代码看起来没问题,对吗?世界各地成百(甚至成千)的 例如,如果用户输入 foo 作为用户名,输入 ‘ or ‘1′=’1 作为密码,那么实际上会将以下字符串传递给 $sql = “select count(*) as ctr from users where username=’foo’ and password=” or ‘1′=’1′ limit 1″; 这个查询总是返回计数值 1,因此 解决这个问题的办法是,将 清单 7. 安全的 [$username = $_POST['user'];$pw = $_POST['pw'];$sql = “select count(*) as ctr from users where username=’”.mysql_real_escape_string($username).”‘ and password=’”. mysql_real_escape_string($pw).”‘ limit 1″; $result = mysql_query($sql);while ($data = mysql_fetch_object($result)){if ($data->ctr == 1){ //they’re okay to enter the application! $okay = 1;}}if ($okay){$_SESSION['loginokay'] = true;header(”index.}else{header(”login.}?>[/使用 mysql_real_escape_string() 作为用户输入的包装器,就可以避免用户输入中的任何恶意 SQL 注入。如果用户尝试通过 SQL 注入传递畸形的密码,那么会将以下查询传递给数据库:select count(*) as ctr from users where \username=’foo’ and password=’\’ or \’1\’=\’1′ limit 1″ 数据库中没有任何东西与这样的密码匹配。仅仅采用一个简单的步骤,就堵住了 Web 应用程序中的一个大漏洞。这里得出的经验是,总是应该对 SQL 查询的用户输入进行转义。但是,还有几个安全漏洞需要堵住。下一项是操纵 GET 变量。防止用户操纵 变量在前一节中,防止了用户使用畸形的密码进行登录。如果您很聪明,应该应用您学到的方法,确保对 SQL 语句的所有用户输入进行转义。但是,用户现在已经安全地登录了。用户拥有有效的密码,并不意味着他将按照规则行事 —— 他有很多机会能够造成损害。例如,应用程序可能允许用户查看特殊的内容。所有链接指向 template.在 清单 8. 示例 template. [//we create an object of a fictional class Page$obj = new Page;$content = $obj->fetchPage($pid);//and now we have a bunch of //……//……?> [/这里有什么错吗?首先,这里隐含地相信来自浏览器的 GET 变量 pid 是安全的。这会怎么样呢?大多数用户没那么聪明,无法构造出语义攻击。但是,如果他们注意到浏览器的 URL 位置域中的 pid=33,就可能开始捣乱。如果他们输入另一个数字,那么可能没问题;但是如果输入别的东西,比如输入 SQL 命令或某个文件的名称(比如 /etc/passwd),或者搞别的恶作剧,比如输入长达 3,000 个字符的数值,那么会发生什么呢?在这种情况下,要记住基本规则,不要信任用户输入。应用程序开发人员知道 template.清单 9. 使用 is_numeric() 来限制 GET 变量 [if (is_numeric($pid)){//we create an object of a fictional class Page$obj = new Page;$content = $obj->fetchPage($pid);//and now we have a bunch of //……//……}else{//didn’t pass the is_numeric() test, do something else!}?> [/这个方法似乎是有效的,但是以下这些输入都能够轻松地通过 is_numeric() 的检查:100 (有效)100.1 (不应该有小数位)+0123.45e6 (科学计数法 —— 不好)0xff33669f (十六进制 —— 危险!危险!)那么,有安全意识的 清单 10. 使用正则表达式限制 GET 变量 [if (strlen($pid)){if (!ereg(”^[0-9]+$”,$pid)){ //do something appropriate, like maybe logging \ them out or sending them back to home page}}else{//empty $pid, so send them back to the home page}//we create an object of a fictional class Page, which is now//moderately protected from evil user input$obj = new Page;$content = $obj->fetchPage($pid);//and now we have a bunch of //……//……?>[/需要做的只是使用 strlen() 检查变量的长度是否非零;如果是,就使用一个全数字正则表达式来确保数据元素是有效的。如果 PID 包含字母、斜线、点号或任何与十六进制相似的内容,那么这个例程捕获它并将页面从用户活动中屏蔽。如果看一下 Page 类幕后的情况,就会看到有安全意识的 清单 11. 对 fetchPage() 方法进行转义 [ function fetchPage($pid){ $sql = “select pid,title,desc,kw,content,\ status from page where pid=’ ”.mysql_real_escape_string($pid).”‘”; //etc, etc….}}?> [/您可能会问,“既然已经确保 PID 是数字,那么为什么还要进行转义?” 因为不知道在多少不同的上下文和情况中会使用 fetchPage() 方法。必须在调用这个方法的所有地方进行保护,而方法中的转义体现了纵深防御的意义。如果用户尝试输入非常长的数值,比如长达 1000 个字符,试图发起缓冲区溢出攻击,那么会发生什么呢?下一节更详细地讨论这个问题,但是目前可以添加另一个检查,确保输入的 PID 具有正确的长度。您知道数据库的 pid 字段的最大长度是 5 位,所以可以添加下面的检查。清单 12. 使用正则表达式和长度检查来限制 GET 变量 [if (strlen($pid)){if (!ereg(”^[0-9]+$”,$pid) && strlen($pid) > 5){ //do something appropriate, like maybe logging \ them out or sending them back to home page}}else{//empty $pid, so send them back to the home page}//we create an object of a fictional class Page, which is now//even more protected from evil user input$obj = new Page;$content = $obj->fetchPage($pid);//and now we have a bunch of //……//……?> [/现在,任何人都无法在数据库应用程序中塞进一个 5,000 位的数值 —— 至少在涉及 GET 字符串的地方不会有这种情况。想像一下黑客在试图突破您的应用程序而遭到挫折时咬牙切齿的样子吧!而且因为关闭了错误报告,黑客更难进行侦察。缓冲区溢出攻击缓冲区溢出攻击 试图使 缓冲区溢出攻击向缓冲区发送大量数据,使部分数据溢出到相邻的内存缓冲区,从而破坏缓冲区或者重写逻辑。这样就能够造成拒绝服务、破坏数据或者在远程服务器上执行恶意代码。防止缓冲区溢出攻击的惟一方法是检查所有用户输入的长度。例如,如果有一个表单元素要求输入用户的名字,那么在这个域上添加值为 40 的 maxlength 属性,并在后端使用 substr() 进行检查。清单 13 给出表单和 清单 13. 检查用户输入的长度 [$name = substr($_POST['name'],0,40);//continue processing….}?>[/为什么既提供 maxlength 属性,又在后端进行 substr() 检查?因为纵深防御总是好的。浏览器防止用户输入 正如您看到的,这种方式与前一节中使用 strlen() 检查 GET 变量 pid 的长度相似。在这个示例中,忽略长度超过 5 位的任何输入值,但是也可以很容易地将值截短到适当的长度,如下所示:清单 14. 改变输入的 GET 变量的长度 [if (strlen($pid)){if (!ereg(”^[0-9]+$”,$pid)){ //if non numeric $pid, send them back to home page}}else{//empty $pid, so send them back to the home page}//we have a numeric pid, but it may be too long, so let’s checkif (strlen($pid)>5){ $pid = substr($pid,0,5);}//we create an object of a fictional class Page, which is now//even more protected from evil user input$obj = new Page;$content = $obj->fetchPage($pid);//and now we have a bunch of //……//……?>[/注意,缓冲区溢出攻击并不限于长的数字串或字母串。也可能会看到长的十六进制字符串(往往看起来像 \xA3 或 \xFF)。记住,任何缓冲区溢出攻击的目的都是淹没特定的缓冲区,并将恶意代码或指令放到下一个缓冲区中,从而破坏数据或执行恶意代码。对付十六进制缓冲区溢出最简单的方法也是不允许输入超过特定的长度。如果您处理的是允许在数据库中输入较长条目的表单文本区,那么无法在客户端轻松地限制数据的长度。在数据到达 清单 15. 防止十六进制字符串 [$name = substr($_POST['name'],0,40);//clean out any potential hexadecimal characters$name = cleanHex($name);//continue processing….}function cleanHex($input){$clean = preg_replace(”![\][xX]([A-Fa-f0-9]{1,3})!”, “”,$input);return $clean;}?>[/您可能会发现这一系列操作有点儿太严格了。毕竟,十六进制串有合法的用途,比如输出外语中的字符。如何部署十六进制 regex 由您自己决定。比较好的策略是,只有在一行中包含过多十六进制串时,或者字符串的字符超过特定数量(比如 128 或 255)时,才删除十六进制串。跨站点脚本攻击在跨站点脚本(XSS)攻击中,往往有一个恶意用户在表单中(或通过其他用户输入方式)输入信息,这些输入将恶意的客户端标记插入过程或数据库中。例如,假设站点上有一个简单的来客登记簿程序,让访问者能够留下姓名、电子邮件地址和简短的消息。恶意用户可以利用这个机会插入简短消息之外的东西,比如对于其他用户不合适的图片或将用户重定向到另一个站点的 JavaScript,或者窃取 cookie 信息。幸运的是, 或 。清单 16 给出一个示例,这个示例是在前一个示例的基础上构建的。清单 16. 从用户输入中清除 HTML 标记 [//strip_tags$name = strip_tags($_POST['name']);$name = substr($name,0,40);//clean out any potential hexadecimal characters$name = cleanHex($name);//continue processing….}function cleanHex($input){$clean = preg_replace\(”![\][xX]([A-Fa-f0-9]{1,3})!”, “”,$input);return $clean;}?>[/从安全的角度来看,对公共用户输入使用 strip_tags() 是必要的。如果表单在受保护区域(比如内容管理系统)中,而且您相信用户会正确地执行他们的任务(比如为 Web 站点创建 HTML 内容),那么使用 strip_tags() 可能是不必要的,会影响工作效率。还有一个问题:如果要接受用户输入,比如对贴子的评论或来客登记项,并需要将这个输入向其他用户显示,那么一定要将响应放在 符号转换为 HTML 实体。例如,与符号(&)变成 &。这样的话,即使恶意内容躲开了前端 strip_tags() 的处理,也会在后端被 htmlspecialchars() 处理掉。浏览器内的数据操纵有一类浏览器插件允许用户篡改页面上的头部元素和表单元素。使用 Tamper Data(一个 Mozilla 插件),可以很容易地操纵包含许多隐藏文本字段的简单表单,从而向 用户在点击表单上的 Submit 之前,他可以启动 Tamper Data。在提交表单时,他会看到表单数据字段的列表。Tamper Data 允许用户篡改这些数据,然后浏览器完成表单提交。让我们回到前面建立的示例。已经检查了字符串长度、清除了 HTML 标记并删除了十六进制字符。但是,添加了一些隐藏的文本字段,如下所示:清单 17. 隐藏变量 [//strip_tags$name = strip_tags($_POST['name']);$name = substr($name,0,40);//clean out any potential hexadecimal characters$name = cleanHex($name);//continue processing….}function cleanHex($input){$clean = \preg_replace(”![\][xX]([A-Fa-f0-9]{1,3})!”, “”,$input);return $clean;}?> [/注意,隐藏变量之一暴露了表名:users。还会看到一个值为 create 的 action 字段。只要有基本的 SQL 经验,就能够看出这些命令可能控制着中间件中的一个 SQL 引擎。想搞大破坏的人只需改变表名或提供另一个选项,比如 delete。图 1 说明了 Tamper Data 能够提供的破坏范围。注意,Tamper Data 不但允许用户访问表单数据元素,还允许访问 HTTP 头和 cookie。图 1. Tamper Data 窗口要防御这种工具,最简单的方法是假设任何用户都可能使用 Tamper Data(或类似的工具)。只提供系统处理表单所需的最少量的信息,并把表单提交给一些专用的逻辑。例如,注册表单应该只提交给注册逻辑。如果已经建立了一个通用表单处理函数,有许多页面都使用这个通用逻辑,那该怎么办?如果使用隐藏变量来控制流向,那该怎么办?例如,可能在隐藏表单变量中指定写哪个数据库表或使用哪个文件存储库。有 4 种选择:不改变任何东西,暗自祈祷系统上没有任何恶意用户。重写功能,使用更安全的专用表单处理函数,避免使用隐藏表单变量。使用 md5() 或其他加密机制对隐藏表单变量中的表名或其他敏感信息进行加密。在 通过使用缩写或昵称让值的含义模糊,在 后两个选项并不完美,但是与让用户轻松地猜出中间件逻辑或数据模型相比,它们要好得多了。现在还剩下什么问题呢?远程表单提交。远程表单提交Web 的好处是可以分享信息和服务。坏处也是可以分享信息和服务,因为有些人做事毫无顾忌。以表单为例。任何人都能够访问一个 Web 站点,并使用浏览器上的 File > Save As 建立表单的本地副本。然后,他可以修改 action 参数来指向一个完全限定的 URL(不指向 formHandler.http://www.yoursite.com/formHandler.,因为表单在这个站点上),做他希望的任何修改,点击 Submit,服务器会把这个表单数据作为合法通信流接收。首先可能考虑检查 $_SERVER['HTTP_REFERER'],从而判断请求是否来自自己的服务器,这种方法可以挡住大多数恶意用户,但是挡不住最高明的黑客。这些人足够聪明,能够篡改头部中的引用者信息,使表单的远程副本看起来像是从您的服务器提交的。处理远程表单提交更好的方式是,根据一个惟一的字符串或时间戳生成一个令牌,并将这个令牌放在会话变量和表单中。提交表单之后,检查两个令牌是否匹配。如果不匹配,就知道有人试图从表单的远程副本发送数据。要创建随机的令牌,可以使用 清单 18. 防御远程表单提交 [if ($_POST['submit'] == “go”){//check tokenif ($_POST['token'] == $_SESSION['token']){ //strip_tags $name = strip_tags($_POST['name']); $name = substr($name,0,40); //clean out any potential hexadecimal characters $name = cleanHex($name); //continue processing….}else{ //stop all processing! remote form posting attempt!}}$token = md5(uniqid(rand(), true));$_SESSION['token']= $token;function cleanHex($input){$clean = preg_replace(”![\][xX]([A-Fa-f0-9]{1,3})!”, “”,$input);return $clean;}?>[/这种技术是有效的,这是因为在 结束语本教程讨论了许多问题:使用 mysql_real_escape_string() 防止 SQL 注入问题。使用正则表达式和 strlen() 来确保 GET 数据未被篡改。使用正则表达式和 strlen() 来确保用户提交的数据不会使内存缓冲区溢出。使用 strip_tags() 和 htmlspecialchars() 防止用户提交可能有害的 HTML 标记。避免系统被 Tamper Data 这样的工具突破。使用惟一的令牌防止用户向服务器远程提交表单。本教程没有涉及更高级的主题,比如文件注入、HTTP 头欺骗和其他漏洞。但是,您学到的知识可以帮助您马上增加足够的安全性,使当前项目更安全。
08-30 15:21