不论你在哪: 通常,正则表达式可以在被搜索字符串中的任意位置找到匹配文本。比如,正则表达式 abc 可以匹配 abc123, 123abc, 和 123abcxyz 。您也可以使用脱字符号"^"和美元符号"$"把匹配文本锚定(anchor)在这一行的开头和结尾。
神奇的转义: (Hsuda:如果需要匹配的某个字符本身就是元字符(如:\.*?+[{|()^$ ),正则表达式会如何处理呢?)例如搜索www.xiaonei.com,而需要搜索的文本里的点号在正则表达式里是代表所有字符的元字符。这时我最终使用的正则表达式是www\.xiaonei\.com。通过使用反斜线,让元字符失去特殊含义而成为普通字符。反斜线(\)便是转义符。不过值得注意的是,在字符组内,转义字符无效。
忽略大小写: 通常,正则表达式不会忽略大小写。但是这会给我们带来一些困扰,比如我们在处理HTML文档的时候,H1和h1是一个意思,但正则表达式却无法知道。这个时候我们可以使用选项"i"让正则表达式忽略大小写。比如i)abc可以忽略大小写去搜索abc。参照 options 来获取更多选项信息。
. | 点号 匹配单个任意字符(除了新行:换行符('r)和回车符('n))。比如,ab. 匹配 abc和abz及ab_。 |
* | 星号 可以匹配任意多次(字符,字符组(class),单元(subpattern)),也可能不匹配。比如 a* 可以匹配ab 也可以匹配aaaab 。它还可以匹配甚至不包含a的字符串。 通配符: AHK里自由的组合莫过于 点号-星号 的组合。它可以匹配任意多的任意字符,也可以匹配0个字符(当然,除了新行:换行符('r)和回车符('n))。比如: abc.*123 匹配 abcAnything123 或者 abc123。 |
? | 问号 容许匹配一次(字符,字符组(class),单元(subpattern)),但非必须。您可以理解为“之前的那项是可选的”。比如, colou?r 可以 匹配 color和colour 因为"u"是可选的。 |
+ | 加号 至少需要匹配一次(字符,字符组(class),单元(subpattern)),至多可能任意多次。比如 a+ 匹配 ab 和 aaab。但是在开头必须至少有一个a,这就是他与星号有区别的地方。 |
{min,max} | 区间量词 至少需要min次(字符,字符组(class),单元(subpattern)),至多容许max次。比如,a{1,2}可以匹配ab 但仅仅只能匹配aaab中的前两个a。 另外,{3}意味着准确地匹配3次,{3,}意味着3次或者更多。注意:您所指定的数字必须小于65536,并且第一个数字要小于第二个数字。(地球人都知道为什么~) |
[...] | 字符组: (Hsuda:如果我们要搜索的是单词"grey"而又不确定它是否写作"gray",便应当使用字符组。)在方括号中列出期望匹配的字符。[abc]可以匹配a或b或c。我们也可以使用连字符"-"来表示一个范围;比如[a-z]就意味着可以匹配所有的小写字母,很有趣,不是么? Hsuda:下面所介绍的\d \w ……都是一种特殊的字符组。 与单个字符一样,您可以使用 *, ?, +, or {min,max}这些量化符号跟在字符组的后面。效果同上面的介绍。 比如[0-9]+匹配一个或者更多的数字,所以能够匹配xyz123而不能匹配abcxyz。 在字符组你既可以罗列你期望匹配的字符也可以使用字符序列,或者将二者组合使用。比如 [a-zA-Z0-9_] 可以匹配数字字母下划线。 Hsuda:我们通常所说的字符组在POSIX标准中被称为方括号表达式(bracket expression)。POSIX中术语"字符组"指的是在方括号表达式内部使用的一种特殊的功能(special feature),而我们可以认为它们是Unicode的字符属性的原型。 POSIX标准中规定的形式是 [[:xxx:]] ,xxx可以上下面的单词来代替: alnum 字母字符和数字字符 alpha 字母 ascii 0-127 blank 空格和制表符 cntrl 控制字符 digit 数字0-9 xdigit 16进制数字 print 类似graph但包含空白字符 graph 非空白字符(即空白字符,控制字符之外的字符) punct 标点符号 lower 小写字母 upper 大写字母 space 所有的空白字符 word 单词字符,参考\w Within a character class, characters do not need to be escaped except when they have special meaning inside a class; e.g. [\^a], [a\-b], [a\]], and [\\a]. |
[^...] | 排除型字符组 匹配任何未列出的字符。比如[^1-6]匹配除了1到6以外的任何字符。其他特性与字符组相同。 |
\d | 匹配单个数字 等价于 [0-9]。相反的 \D 匹配非数字字符 等价于 [^0-9]。这个和下面介绍的那两个都可以用在字符组里。比如[\d.-]可以匹配所有数字,点号,和连字符。 |
\s | 匹配空白字符 通常等价于[ \f\n\r\t\v]即匹配空白符,空格,制表,换行。相反的 \S匹配非空白字符。 |
\w | 匹配单词中的字符,等价于[0-9a-zA-Z_]。相反的\W匹配非单词字符 等价于[^0-9a-zA-Z]。 |
^ $ |
脱字符号"^"和美元符号"$"被称为锚点是因为他们并不会匹配实际的文本,而是寻找文本中的位置。(Hsuda:我把锚点归类为“零长度断言”) ^(脱字符)匹配需要搜索的文本的起始位置。比如: ^abc 匹配 abc123 而不能 123abc。 $ 美元符号 匹配目标字符串的末尾。比如abc$ 匹配 123abc 而不是 abc123。 两个锚点可以组合使用,比如^abc$ 只能匹配abc(在abc的前面和后面不能有任何字符)。 对于有很多行的被搜索文本,我们可以使用 "m" 选项 使得锚点可以用作搜索每一行而不是把所有行当作整体来搜索。比如m)^abc$ 可以匹配 123`r`nabc`r`n789 。但是如果缺少 "m" 选项,这是不可以匹配的。 |
\b | \b 代表"单词分界符(word boundary)",单词分界符的作用与行锚点一样,也是匹配字符串中的某些位置。它要求当前字符的状态是一个单词字符(\w)而它之前的与它相反。我们使用\b能有效地避免在匹配过程中遇到一个单词属于另一个单词时造成的麻烦。比如: \bcat\b不能匹配catfish而仅仅只能匹配cat。\B则起到的是完全相反的作用。 |
| | 竖线将两个或者更多的选项分隔开来。选项中的任意一项满足条件便可以完成匹配。比如gray|grey 可以匹配 gray和grey。相似的,表达式 gr(a|e)y 所产生的作用与上面这个例子一样。 |
(...) |
|
\t \r etc. |
这些转义字符代表特殊字符。最常见的是\t代表制表符,\r代表回车,\n代表换行。在AutoHotkey里,这里例子里的反斜线可以用重音符号" ` "来代替(当然是为了方便群众)。像\xhh这种形式的转义字符也是支持的,hh则是代表ANSI字符的十六进制数(00-FF)。 在 v1.0.46.06以上的版本中, \R 代表"任何形式的单个换行符",与之功能相同的是 `a option(然而,\R在字符组(character class)内仅仅是字母"R")。在In v1.0.47.05以上的版本中,在表达式的前面指定(*BSR_ANYCRLF)可以让 \R 匹配CR LF 和 CRLF。比如:im)(*BSR_ANYCRLF)abc\Rxyz。 |
匹配优先模式:通常, *, ?, +, 和 {min,max}是匹配优先量词因为他们都是尽可能多地去匹配字符。
Hsuda:这里插播一个例子,对于匹配优先模式,我们将遇到一个很常见的陷阱。比如,我们要搜索的句子是
They call me "Hsudatalks" or "Freedom".
我希望搜索第一对引号里的内容,可能会产生这样的表达式".+",可是由于*是匹配优先的量词,我们得到的结果是
"Hsudatalks" or "Freedom"
这明显不是我们所期望的结果。那该怎么办呢?请看下面的帮助:
在他们后面使用问号则可以让他们尽可能少的匹配字符。那上面的例子我们采用".+?",所得到的便是"Hsudatalks"。
例:表达式<.+>所表示的意思是先搜索<,在匹配一个或者更多的任意字符,后面跟着一个>。在匹配时会出现 <em>text</em>,为了避免这种情况,我们使用<.+?> 使得表达式仅仅只会匹配标记<em>。
顺序环视和逆序环视: (?=...),(?!...),(?<=...) 和 (?<!...) 被成为环视,因为他们都是形容一个匹配条件而不消耗任何字符。比如:abc(?=.*xyz) 匹配右边的某个地方存在字符xyz的字符abc(如果不存在,便不能匹配)。 (?=...)被称为肯定顺序环视,因为他需要指定的字符在后面存在才能够完成匹配过程。相反的,(?!...)是否定顺序环视,因为他是在不存在指定字符的条件下的条件下完成匹配。相似的,(?<=...) 和(?<!...) 被称为肯定和否定的逆序环视,因为他们是在当前位置的左边寻找指定的字符存在或者不存在。逆序要比顺序更加局限,因为他不支持*,?和+这样的量词。
相关: 正则表达式由 RegExMatch(), RegExReplace()和SetTitleMatchMode支持。
最后:尽管这个页面介绍了正则表达式中最常用的元字符和一些特性,但是还有比如条件子表达式等相当一部分的其他特性您期望了解的。完整的PCRE手册请访问 www.pcre.org/pcre.txt 。(Hsuda:写到这里,发现AHK里的正则表达式原来用的是PCRE的库,关于PCRE,大家需要了解的是这是个地地道道的传统NFA引擎的正则库,所以,在编写正则表达式的时候是很考验您的优化功力的)
翻译:hsudatalks 已校对。