猫宁!!!

参考链接:

https://www.cnblogs.com/fozero/p/7868687.html

http://tool.oschina.net/regex/#

http://tool.oschina.net/uploads/apidocs/jquery/regexp.html

在1951 年,一位名叫Stephen Kleene的数学科学家,他在Warren McCulloch和Walter Pitts早期工作的基础之上,发表了一篇题目是《神经网事件的表示法》的论文,利用称之为正则集合的数学符号来描述此模型,引入了正则表达式的概念。正则表达式被作为用来描述其称之为“正则集的代数”的一种表达式,因而采用了“正则表达式”这个术语。

日常waf的运维过程中,需要针对突发漏洞事件制定临时防护策略,需要根据公司实际场景优化现有的waf策略,这个时候,正则表达式大有用处,可以极大地减少策略制定的数量,增强waf的防御疗效,控制运维成本。

对于正则表达式的元字符要分类解析,不同类型拆分开来,清晰可见。

假设现在有一个1.txt的文件,里面有很多单个字符串,我们现在的目的是快速找出那些我们想要的字符。

ab   包含ab的字符串,例如abc/1ab/wabc

第一部分

^ab   开头为ab的字符串,例如abc/abc1

ab$   结尾为ab的字符串,例如qab/c1ab

^ab$   开头和结尾都是ab,就是ab本身

ab.   ab后面跟上一个字符,例如abc/ab1,这个点可以表示除\n(换行符)和\r(回车符)的任意字符

^a.b$   a为开头,b为结尾,中间是一个字符,例如a1b

ab*    a后面跟0个及以上的b,例如a/ab/abb

ab.*   ab后面跟0个及以上的字符,例如ab/abc/ab123

.*ab   表示ab为结尾,ab之前有0个及以上的字符,例如1ab/aab/1aaab

ab+   a后面跟1个及以上的b,例如ab/abb

ab?   a后面跟0个或者1个b,仅表示a/ab

ab\.php   表示ab.php,中间的点被反斜杠\转义了,例如ab\*表示ab*

第二部分

ab{1}   表示a后面跟1个b,就是ab,数字只能是自然数

ab{1,3}   表示a后面跟1到3个b,就是ab/abb/abbb三个

ab{1,}    表示a后面跟1个及以上的b,例如ab/abb/abbbbb

^.{3}$   表示3个字符的字符串,例如111/a1a/bbb

a|b   表示a或者b,例如a|b|2表示a/b/2三个中的一个

a|bc   表示a或者bc

(a|b)cd   表示acd/bcd两个中的一个

[ab]cd   表示acd/bcd两个中的一个

[^ab]cd   一定不能是acd/bcd中任一个

[a-z]ab   表示开头是a到z的字符,例如aab/zab/rab

[A-Z]ab   表示开头是A到Z的字符,例如Aab/Rab

[0-9]ab   表示开头是0到9的字符,例如0ab/7ab

第三部分

a\b   \b是边界的意思,表示a字母为结尾的字符串

\ba   表示a字母为开头的字符串

a\B   \B是不能为边界的意思,表示a字母不能为结尾的字符串

\Ba   表示a字母不能为开头的字符串

\d   表示[0-9]

\D   表示[^0-9]

\w   表示字母数字下划线,[A-Za-z0-9_],里面包含下划线

\W   表示[^A-Za-z0-9_],里面包含下划线

第四部分

\cx   c表示ctrl的意思,x对应特定控制符,且必须为大小写字母

\f   换页符,对应\cL,a\fb表示ab之间有一个换页符,就是文档上下页之间的那个空字符

\n   换行符,对应\cJ,a\nb 表示ab之间有一个换行符,就是一行字符到头自动换到下一行间的空字符

\r   回车符,对应\cM,a\r\b表示ab之间有一个回车符,就是一行未到头,按enter换行的那个空字符

\t   水平制表符,对应 \cI,a\tb表示ab之间有一个水平制表符,例如编程时的一个tab键表示4个空格,实现了一次水平制表符的移动

\v    垂直制表符,对应\cK,a\vb表示ab之间有一个垂直制表符,例如按向下/向上/向左/向右的任意一个箭头,都可以实现换一行从头输入

\s   匹配任何空白字符,等同于[\f\n\r\t\v]

\S   匹配任何非空白字符,与 \s正好相反

实践可以加速正则表达式的掌握进程和牢靠程度,出现上文没有的情况去百度查一下就好,相信掌握了基础知识,搞清楚会快很多,也可以主动分析一些常用的正则表达式,例如邮箱、ip、网址等。

05-28 09:16