在PHP中使用与Perl兼容的正则表达式


Posted in PHP onNovember 26, 2006

前言

PHP被大量的应用于Web的后台CGI开发,通常是在用户数据数据之后得出某种结果,但是如果用户输入的数据不正确,就会出现问题,比如说某人的生日是"2月30日"!那应该怎么样来检验暑假是否正确呢? 在PHP中加入了正则表达式的支持,让我们可以十分方便的进行数据匹配。

什么是正则表达式

简单的说,正则表达式是一种可以用于模式匹配和替换的强大工具。在几乎所有的基于UNIX/LINUX系统的软件工具中找到正则表达式的痕迹,例如:Perl或PHP脚本语言。此外,JavaScript这种客户端的脚本语言也提供了对正则表达式的支持,现在正则表达式已经成为了一个通用的概念和工具,被各类技术人员所广泛使用。

在某个Linux网站上面有这样的话:“如果你问一下Linux爱好者最喜欢什么,他可能会回答正则表达式;如果你问他最害怕什么,除了繁琐的安装配置外他肯定会说正则表达式。”

正如上面说的,正则表达式看起来非常复杂,让人害怕,大多数的PHP初学者都会跳过这里,继续下面的学习,但是PHP中的正则表达式有着可以利用模式匹配找到符合条件的字符串、判断字符串是否合乎条件或者用指定的字符串来替代符合条件的字符串等强大的功能,不学实在太可惜了……

正则表达式的基本语法

一个正则表达式,分为三个部分:分隔符,表达式和修饰符。

分隔符可以是除了特殊字符以外的任何字符(比如"/ !"等等),常用的分隔符是"/"。表达式由一些特殊字符(特殊字符详见下面)和非特殊的字符串组成,比如"[a-z0-9_-]+@[a-z0-9_-.]+"可以匹配一个简单的电子邮件字符串。修饰符是用来开启或者关闭某种功能/模式。下面就是一个完整的正则表达式的例子:
/hello.+?hello/is
上面的正则表达式"/"就是分隔符,两个"/"之间的就是表达式,第二个"/"后面的字符串"is"就是修饰符。

在表达式中如果含有分隔符,那么就需要使用转义符号"\",比如"/hello.+?\/hello/is"。转义符号除了用于分隔符外还可以执行特殊字符,全部由字母构成的特殊字符都需要"\"来转义,比如"\d"代表全体数字。

正则表达式的特殊字符

正则表达式中的特殊字符分为元字符、定位字符等等。

元字符是正则表达式中一类有特殊意义的字符,用来描述其前导字符(即元字符前面的字符)在被匹配的对象中出现的方式。元字符本身是一个个单一的字符,但是不同或者相同的元字符组合起来可以构成大的元字符。

元字符:

大括号:大括号用来精确指定匹配元字符出现的次数,例如"/pre{1,5}/"表示匹配的对象可以是"pre"、"pree"、"preeeee"这样在"pr"后面出现1个到5个"e"的字符串。或者"/pre{,5}/"代表pre出现0此到5次之间。

加号:"+"字符用来匹配元字符前的字符出现一次或者多次。例如"/ac+/"表示被匹配的对象可以是"act"、"account"、"acccc"等在"a"后面出现一个或者多个"c"的字符串。"+"相当于"{1,}"。

星号:"*"字符用来匹配元字符前的字符出现零次或者多次。例如"/ac*/"表示被匹配的对象可以是"app"、"acp"、"accp"等在"a"后面出现零个或者多个"c"的字符串。"*"相当于"{0,}"。

问号:"?"字符用来匹配元字符前的字符出现零次或者1次。例如"/ac?/"表示匹配的对象可以是"a"、"acp"、"acwp"这样在"a"后面出现零个或者1个"c"的字符串。"?"在正则表达式中还有一个非常重要的作用,即"贪婪模式"。

还有两个很重要的特殊字符就是"[ ]"。他们可以匹配"[]"之中出现过的字符,比如"/[az]/"可以匹配单个字符"a"或者"z";如果把上面的表达式改成这样"/[a-z]/",就可以匹配任何单个小写字母,比如"a"、"b"等等。

如果在"[]"中出现了"^",代表本表达式不匹配"[]"内出现的字符,比如"/[^a-z]/"不匹配任何小写字母!并且正则表达式给出了几种"[]"的默认值:
[:alpha:]:匹配任何字母
[:alnum:]:匹配任何字母和数字
[:digit:]:匹配任何数字
[:space:]:匹配空格符
[:upper:]:匹配任何大写字母
[:lower:]:匹配任何小写字母
[:punct:]:匹配任何标点符号
[:xdigit:]:匹配任何16进制数字

另外下面这些特殊字符在转义符号"\"转义后代表的含义如下:
s:匹配单个的空格符
S:用于匹配除单个空格符之外的所有字符。
d:用于匹配从0到9的数字,相当于"/[0-9]/"。
w:用于匹配字母,数字或下划线字符,相当于"/[a-zA-Z0-9_]/"。
W:用于匹配所有与w不匹配的字符,相当于"/[^a-zA-Z0-9_]/"。
D:用于匹配任何非10进制的数字字符。
.:用于匹配除换行符之外的所有字符,如果经过修饰符"s"的修饰,"."可以代表任意字符。

利用上面的特殊字符可以很方便的表达一些比较繁琐的模式匹配。例如"/\d0000/"利用上面的正则表达式可以匹配万以上,十万一下的整数字符串。

定位字符:

定位字符是正则表达式中又一类非常重要的字符,它的主要作用是用于对字符在匹配对象中的位置进行描述。
^:表示匹配的模式出现在匹配对象的开头(和在"[]"里面不同)
$:表示匹配的模式出现在匹配对象的末尾
空格:表示匹配的模式出现在开始和结尾的两个边界之一
"/^he/":可以匹配以"he"字符开头的字符串,比如hello、height等等;
"/he$/":可以匹配以"he"字符结尾的字符串即she等;
"/ he/":空格开头,和^的作用一样,匹配以he开头的字符串;
"/he /":空格结束,和$的作用一样,匹配以he结尾的字符串;
"/^he$/":表示只和字符串"he"匹配。
正则表达式除了可以用户匹配,还可以用括号"()"来记录需要的信息,储存起来,给后面的表达式读取。比如:
/^([a-zA-Z0-9_-]+)@([a-zA-Z0-9_-]+)(.[a-zA-Z0-9_-])$/
就是记录邮件地址的用户名,和邮件地址的服务器地址(形式为username@server.com之类的),在后面如果想要读取记录下来的字符串,只是需要用"转义符+记录的次序"来读取。比如"\1"就相当于第一个"[a-zA-Z0-9_-]+","\2"相当于第二个([a-zA-Z0-9_-]+),"\3"就是第三个(.[a-zA-Z0-9_-])。但是在PHP中,"\"是一个特殊的字符,需要转义,所以""到了PHP的表达式中就应该写成"\\1"。
其他特殊符号:
"|":或符号"|"和PHP里面的或一样,不过是一个"|",而不是PHP的两个"||"!意思就是可以是某个字符或者另一个字符串,比如"/abcd|dcba/"可能匹配"abcd"或者"dcba"。

贪婪模式

前面在元字符中提到过"?"还有一个重要的作用,即"贪婪模式",什么是"贪婪模式"呢?

比如我们要匹配以字母"a"开头字母"b"结尾的字符串,但是需要匹配的字符串在"a"后面含有很多个"b",比如"a bbbbbbbbbbbbbbbbb",那正则表达式是会匹配第一个"b"还是最后一个"b"呢?如果你使用了贪婪模式,那么会匹配到最后一个"b",反之只是匹配到第一个"b"。
使用贪婪模式的表达式如下:
/a.+?b/
/a.+b/U
不使用贪婪模式的如下:
/a.+b/
上面使用了一个修饰符U,详见下面的部分。

修饰符

在正则表达式里面的修饰符可以改变正则的很多特性,使得正则表达式更加适合你的需要(注意:修饰符对于大小写是敏感的,这意味着"e"并不等于"E")。正则表达式里面的修饰符如下:
i :如果在修饰符中加上"i",则正则将会取消大小写敏感性,即"a"和"A" 是一样的。
m:默认的正则开始"^"和结束"$"只是对于正则字符串如果在修饰符中加上"m",那么开始和结束将会指字符串的每一行:每一行的开头就是"^",结尾就是"$"。
s:如果在修饰符中加入"s",那么默认的"."代表除了换行符以外的任何字符将会变成任意字符,也就是包括换行符!
x:如果加上该修饰符,表达式中的空白字符将会被忽略,除非它已经被转义。
e:本修饰符仅仅对于replacement有用,代表在replacement中作为PHP代码。
A:如果使用这个修饰符,那么表达式必须是匹配的字符串中的开头部分。比如说"/a/A"匹配"abcd"。
E:与"m"相反,如果使用这个修饰符,那么"$"将匹配绝对字符串的结尾,而不是换行符前面,默认就打开了这个模式。
U:和问号的作用差不多,用于设置"贪婪模式"。

PCRE相关的正则表达式函数

PHP的Perl兼容正则表达式提供的多个函数,分为模式匹配,替换和匹配数目等等:

1、preg_match :
函数格式:int preg_match(string pattern, string subject, array [matches]);
这个函数会在string中使用pattern表达式来匹配,如果给定了[regs],就会将string记录到[regs][0]中,[regs][1]代表使用括号"()"记录下来的第一个字符串,[regs][2]代表记录下来的第二个字符串,以此类推。preg如果在string中找到了匹配的pattern,就会返回"true",否则返回"false"。

2、preg_replace :
函数格式:mixed preg_replace(mixed pattern, mixed replacement, mixed subject);
这个函数会使用将string中符合表达式pattern的字符串全部替换为表达式replacement。如果replacement中需要包含pattern的部分字符,则可以使用"()"来记录,在replacement中只是需要用"\1"来读取。

3、preg_split :
函数格式:array preg_split(string pattern, string subject, int [limit]);
这个函数和函数split一样,区别仅在与split可以使用简单正则表达式来分割匹配的字符串,而preg_split使用完全的Perl兼容正则表达式。第三个参数limit代表允许返回多少个符合条件的值。

4、preg_grep :
函数格式:array preg_grep(string patern , array input);
这个函数和preg_match功能基本上,不过preg_grep可以将给定的数组input中的所有元素匹配,返回一个新的数组。 下面举一个例子,比如我们要检查Email地址的格式是否正确:

<?php
function emailIsRight($email
) {
    if (
preg_match("^[_.0-9a-z-]+@([0-9a-z][0-9a-z-]+.)+[a-z]{2,3}$",$email
)) {
    return
1
;
    }
    return
0
;
}
if(
emailIsRight('y10k@963.net')) echo '正确<br>'
;
if(!
emailIsRight('y10k@fffff')) echo '不正确<br>'
;
?>

上面的程序会输出"正确<br>不正确"。

PHP中的Perl兼容正则表达式和Perl/Ereg正则表达式的区别

虽然叫做“Perl兼容正则表达式”,但是和Perl的正则表达式相比,PHP的还是由一些不同,比如修饰符“G”在Perl里面代表全部匹配,但是在PHP中没有加入对这个修饰符的支持。

还有就是和ereg系列函数的区别,ereg也是PHP中提供的正则表达式函数,不过和preg相比,要弱上很多。

1、ereg里面是不需要也不能使用分隔符和修饰符的,所以ereg的功能比preg要弱上不少。

2、关于".":点在正则里面一般是除了换行符以外的全部字符,但是在ereg里面的"."是任意字符,即包括换行符!如果在preg里面希望"."能够包括换行符,可以在修饰符中加上"s"。

3、ereg默认使用贪婪模式,并且不能修改,这个给很多替换和匹配带来麻烦。

4、速度:这个或许是很多人关心的问题,会不会preg功能强大是以速度来换取的?不用担心,preg的速度要远远比ereg快,笔者做了一个程序测试:

<?php
echo "Preg_replace used time:"
;
$start = time
();
for(
$i=1;$i<=100000;$i
++) {
    
$str = "ssssssssssssssssssssssssssss"
;
    
preg_replace("/s/","",$str
);
}
$ended = time()-$start
;
echo
$ended
;
echo
"ereg_replace used time:"
;
$start = time
();
for(
$i=1;$i<=100000;$i
++) {
    
$str = "ssssssssssssssssssssssssssss"
;
    
ereg_replace("s","",$str
);
}
$ended = time()-$start
;
echo
$ended
;
echo
"str_replace used time:"
;
$start = time
();
for(
$i=1;$i<=100000;$i
++) {
    
$str = "sssssssssssssssssssssssssssss"
;
    
str_replace("s","",$str
);
}
$ended = time()-$start
;
echo
$ended
;
?>

结果:
Preg_replace used time:5
ereg_replace used time:15
str_replace used time:2
str_replace因为不需要匹配所以速度非常快,而preg_replace的速度比ereg_replace要快上不少。

关于PHP3.0对于preg的支持

在PHP 4.0中默认加入了preg支持,但是在3.0中确没有。如果在3.0中希望使用preg函数,必须加载php3_pcre.dll文件,只要在php.ini的extension部分设置加入"extension = php3_pcre.dll"然后从新启动PHP就可以了!

其实正则表达式还常用于UbbCode的实现,很多PHP论坛都使用了这个方法(比如zForum zphp.com或者vB vbullent.com),但是具体的代码比较长。

PHP 相关文章推荐
新版PHP极大的增强功能和性能
Oct 09 PHP
一个很不错的PHP翻页类
Jun 01 PHP
一些需要禁用的PHP危险函数(disable_functions)
Feb 23 PHP
php加水印的代码(支持半透明透明打水印,支持png透明背景)
Jan 17 PHP
joomla jce editor 解决上传中文名文件失败问题
Jun 09 PHP
zf框架的registry(注册表)使用示例
Mar 13 PHP
php单态设计模式(单例模式)实例
Nov 18 PHP
PIGCMS 如何关闭聊天机器人
Feb 12 PHP
php curl 模拟登录并获取数据实例详解
Dec 22 PHP
PHP获取文件扩展名的方法实例总结
Jun 10 PHP
Laravel5.5新特性之友好报错以及展示详解
Aug 13 PHP
PHP切割整数工具类似微信红包金额分配的思路详解
Sep 18 PHP
上传多个文件的PHP脚本
Nov 26 #PHP
使PHP自定义函数返回多个值
Nov 26 #PHP
PHP中for循环语句的几种变型
Nov 26 #PHP
用PHP中的 == 运算符进行字符串比较
Nov 26 #PHP
PHP图片上传类带图片显示
Nov 25 #PHP
整合了前面的PHP数据库连接类~~做成一个分页类!
Nov 25 #PHP
PHP面向对象的使用教程 简单数据库连接
Nov 25 #PHP
You might like
php 将bmp图片转为jpg等其他任意格式的图片
2009/06/29 PHP
curl不使用文件存取cookie php使用curl获取cookie示例
2014/01/26 PHP
PHP中单引号与双引号的区别分析
2014/08/19 PHP
PHP isset()及empty()用法区别详解
2020/08/29 PHP
雄兵连第三季海报曝光,艾妮熙德成主角,蔷薇新造型
2021/03/09 国漫
JavaScript高级程序设计 阅读笔记(十七) js事件
2012/08/14 Javascript
jquery控制左右箭头滚动图片列表的实例
2013/05/20 Javascript
Javascript全局变量var与不var的区别深入解析
2013/12/09 Javascript
JS实现为排序好的字符串找出重复行的方法
2016/03/02 Javascript
jQuery代码实现对话框右上角菜单带关闭×
2016/05/03 Javascript
vue中用H5实现文件上传的方法实例代码
2017/05/27 Javascript
JavaScript设计模式之职责链模式应用示例
2018/08/07 Javascript
VUE实现可随意拖动的弹窗组件
2018/09/25 Javascript
JavaScript变量提升和严格模式实例分析
2019/01/27 Javascript
bootstrap table实现iview固定列的效果实例代码详解
2019/09/30 Javascript
react quill中图片上传由默认转成base64改成上传到服务器的方法
2019/10/30 Javascript
Vue使用vue-draggable 插件在不同列表之间拖拽功能
2020/03/12 Javascript
微信小程序点击滚动到指定位置的实现
2020/05/22 Javascript
vscode 调试 node.js的方法步骤
2020/09/15 Javascript
python实现实时监控文件的方法
2016/08/26 Python
Django入门使用示例
2017/12/12 Python
python3如何将docx转换成pdf文件
2018/03/23 Python
详解Python 装饰器执行顺序迷思
2018/08/08 Python
浅谈python在提示符下使用open打开文件失败的原因及解决方法
2018/11/30 Python
对python实现模板生成脚本的方法详解
2019/01/30 Python
Python&amp;&amp;GDAL实现NDVI的计算方式
2020/01/09 Python
keras实现基于孪生网络的图片相似度计算方式
2020/06/11 Python
Python爬虫爬取新闻资讯案例详解
2020/07/14 Python
python如何遍历指定路径下所有文件(按按照时间区间检索)
2020/09/14 Python
HTML5 解析规则分析
2009/08/14 HTML / CSS
美国最大的旗帜经销商:Carrot-Top
2018/02/26 全球购物
德国亚马逊官方网站:Amazon.de
2020/11/15 全球购物
公司管理建议书范文
2014/03/12 职场文书
伊琍体标语
2014/06/25 职场文书
2016年“世界气象日”广播稿
2015/12/17 职场文书
python绘图subplots函数使用模板的示例代码
2021/04/30 Python