正则表达式中一些比较难理解的
一、回溯与非回溯 使用“(?>…)”方式进行非回溯声明。由于正则表达式引擎的贪婪特性,导致它在某些情况下,将进行回溯以获得匹配,请看下面的示例:
string x = "Live for nothing,die for something";Regex r1 = new Regex(@".*thing,");if (r1.IsMatch(x)){ Console.WriteLine("match:" + r1.Match(x).Value);//输出:Live for nothing,}Regex r2 = new Regex(@"(?>.*)thing,");if (r2.IsMatch(x))//不匹配{ Console.WriteLine("match:" + r2.Match(x).Value);}//在r1中,“.*”由于其贪婪特性,将一直匹配到字符串的最后,随后匹配“thing”,但在匹配“,”时失败,此时引擎将回溯,并在“thing,”处匹配成功。在r2中,由于强制非回溯,所以整个表达式匹配失败。
二、反向引用
\ 数字 | 后向引用。例如,(\w)\1 查找双写的单词字符。 |
\k<name> | 命名后向引用。例如,(?<char>\w)\k<char> 查找双写的单词字符。表达式 (?<43>\w)\43 执行同样的操作。可以使用单引号替代尖括号,例如 \k'char'。 |
三、正向预搜索、反向预搜索
(10)正向预搜索、反向预搜索 正向预搜索声明格式:正声明 “(?=…)”,负声明 “(?!...)” ,声明本身不作为最终匹配结果的一部分,请看下面的示例:
string x = "1024 used 2048 free";Regex r1 = new Regex(@"\d{4}(?= used)");if (r1.Matches(x).Count==1){ Console.WriteLine("r1 match:" + r1.Match(x).Value);//输出:1024}Regex r2 = new Regex(@"\d{4}(?! used)");if (r2.Matches(x).Count==1){ Console.WriteLine("r2 match:" + r2.Match(x).Value); //输出:2048}//r1中的正声明表示必须保证在四位数字的后面必须紧跟着“ used”,r2中的负声明表示四位数字之后不能跟有“ used”。
反向预搜索声明格式:正声明“(?<=)”,负声明“(?<!)”,声明本身不作为最终匹配结果的一部分,请看下面的示例:
string x = "used:1024 free:2048";Regex r1 = new Regex(@"(?<=used:)\d{4}");if (r1.Matches(x).Count==1){ Console.WriteLine("r1 match:" + r1.Match(x).Value);//输出:1024}Regex r2 = new Regex(@"(?<!used:)\d{4}");if (r2.Matches(x).Count==1){ Console.WriteLine("r2 match:" + r2.Match(x).Value);//输出:2048}//r1中的反向正声明表示在4位数字之前必须紧跟着“used:”,r2中的反向负声明表示在4位数字之前必须紧跟着除“used:”之外的字符串。
posted on 2011-05-11 15:30 阅读( ...) 评论( ...)