Python正则表达式高级使用方法汇总


Posted in Python onJune 18, 2020

正则表达式是一个以简单直观的方式匹配指定文本信息从而达到查找、替换等操作的目的。正则表达式以其简单而高效的特点使得其在数据分析和数据验证方面应用广泛。

对于简单的正则表达式可以直接百度之,这里重点引荐下‘特殊'操作。

1.非贪婪模式 - {x,y}?

非贪婪模式是指在使用正则匹配时,尽可能少的匹配(默认是贪婪模式,即:尽可能多的匹配)。例:

>>> re.search(r'[\d]{2,5}?','091234568')

<_sre.SRE_Match object; span=(0, 2), match='09'>

在这里{2,5}?匹配只是匹配2-5个[\d]时只要满足2(最少的)个就好,在看看贪婪模式:

>>> re.search(r'[\d]{2,5}','091234568')
<_sre.SRE_Match object; span=(0, 5), match='09123'>

这时候,匹配2-5个[\d]时,默认匹配最多的5个。

注意:贪婪和非贪婪模式的区别就是重复操作符后有没有?字符

2.分组

正则表达式提供了一个机制将表达式分组,匹配的结果也将按照表达式单独分组。例:

>>> m = re.search(r'(\d{3})-(\d{5})','029-25642')
>>> m.group()
'029-25642'
>>> m.groups()
('029', '25642')
>>> m.group(2)
'25642'

可以通过m.groups()看到分组匹配结果,通过m.group(index)查看具体编号的分组结果(编号从1开始,0是完整的匹配)。那分组有什么用呢,好像也没什么特殊的含义,不急,下面会用到。

3.引用分组(回溯) - \N

有这么一种情况,比如假设我要找出一个html文本中的所有<a></a>标签,怎么办?试试这样:

>>> re.search(r'<(\w+)>.+</(\w+)>','<a>this is a demo</e>')
<_sre.SRE_Match object; span=(0, 21), match='<a>this is a demo</e>'>

奇怪的事情来了,为什么<a></e>被匹配成功了,显然结果并不是想要的,那怎么才能只匹配<a></a>而过滤掉其他的呢(比如<a></e>)?答案就是引用分组,例:

>>> re.search(r'<(\w+)>.+</\1>','<a>this is a demo</e><p>demo two</p>')
<_sre.SRE_Match object; span=(21, 36), match='<p>demo two</p>'>

这里\1是关键,意思就是当前位置匹配的结果需要和第一个分组匹配的结果一致,或者说第一个分组的匹配结果期望在这里再次出现。以此类推。该方法最多只能匹配前99个分组。

4.分组命名 - (?P<name>.*)

分组命名最开始由python引入,比如Django路由中会用到。分组命名的好处是方便,直接使用名字比编号要简单而且不会变化,例:

>>> m = re.search(r'(?P<first_name>\d{3})-(?P<second_name>\d{4})','029-8967')
>>> m.group('first_name')
'029'
>>> m.groupdict()
 {'first_name': '029', 'second_name': '8967'}

当然,命名分组仍然是编号分组,依然可以使用编号进行查找分组。

5.先行断言 - X(?!Y)、X(?=Y)

假设有这么一种情况,要查找所有163信箱的文本,也就是@163.com结尾的所有email账号信息,也就是说不要@163.com这部分,但是其还要参与匹配。这就用到了先行断言,也即基于之后的内容是否存在接收或拒绝一个匹配,而不需要接下来的内容作为匹配的一部分。例:

>>> re.search(r'h(?!e)','hello home!')
<_sre.SRE_Match object; span=(6, 7), match='h'>

h(?!e)表示匹配h,而且h后面不能是e,此处匹配成功的是home,但是只返回h

>>> re.search(r'h(?=e)','hello home!')
<_sre.SRE_Match object; span=(0, 1), match='h'>

h(?=e)表示匹配he,此处匹配成功的是hello,但是只返回h

6.标记

  • 不区分大小写:re.IGNORECASE(简写re.I)-使得正则表达式不区分大小写
  • 点匹配换行符:re.DOTALL(简写re.S)-使得 . 符号可以匹配换行符
  • 多行模式:re.MULTILINE(简写re.M)-使得^$字符可以匹配任意行的开始与结束
  • 详细模式:re.VERBOSE(简写re.X)-使得正则表达式可以换行书写,且可以加入注释
  • 调试模式:re.DEBUG-将调试信息输出到sys.stderr
  • 使用多个标记时,使用|分隔,如re.S|re.M

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python使用reportlab画图示例(含中文汉字)
Dec 03 Python
详细探究Python中的字典容器
Apr 14 Python
python与php实现分割文件代码
Mar 06 Python
使用Python操作FTP实现上传和下载的方法
Apr 01 Python
python使用Plotly绘图工具绘制气泡图
Apr 01 Python
详解python中__name__的意义以及作用
Aug 07 Python
Python实现PyPDF2处理PDF文件的方法示例
Sep 25 Python
python logging日志模块原理及操作解析
Oct 12 Python
pytorch中获取模型input/output shape实例
Dec 30 Python
tensorflow中tf.slice和tf.gather切片函数的使用
Jan 19 Python
python中68个内置函数的总结与介绍
Feb 24 Python
python GUI库图形界面开发之PyQt5线程类QThread详细使用方法
Feb 26 Python
将tf.batch_matmul替换成tf.matmul的实现
Jun 18 #Python
新手常见Python错误及异常解决处理方案
Jun 18 #Python
Python之Matplotlib文字与注释的使用方法
Jun 18 #Python
Matplotlib自定义坐标轴刻度的实现示例
Jun 18 #Python
浅谈keras中的batch_dot,dot方法和TensorFlow的matmul
Jun 18 #Python
PyCharm中配置PySide2的图文教程
Jun 18 #Python
python属于软件吗
Jun 18 #Python
You might like
PHP VS ASP
2006/10/09 PHP
php实现查看邮件是否已被阅读的方法
2013/12/03 PHP
php中的mongodb select常用操作代码示例
2014/09/06 PHP
php封装的连接Mysql类及用法分析
2015/12/10 PHP
PHP实现文件上传下载实例
2016/10/18 PHP
Laravel如何友好的修改.env配置文件详解
2017/06/07 PHP
计算世界完全对称日的js代码,粗糙版
2011/11/04 Javascript
JavaScript初学者应注意的七个细节小结
2012/01/30 Javascript
jQuery中setTimeout的几种使用方法小结
2013/04/07 Javascript
js左右弹性滚动对联广告代码分享
2014/02/19 Javascript
最丑的时钟效果!js canvas时钟制作方法
2016/08/15 Javascript
JavaScript学习总结之正则的元字符和一些简单的应用
2017/06/30 Javascript
关于JavaScript的单双引号嵌套问题
2017/08/20 Javascript
使用vue-cli导入Element UI组件的方法
2018/05/16 Javascript
详解如何在vue-cli中使用vuex
2018/08/07 Javascript
微信小程序实现无限滚动列表
2020/05/29 Javascript
vue单文件组件无法获取$refs的问题
2020/06/24 Javascript
Python实现控制台输入密码的方法
2015/05/29 Python
利用python GDAL库读写geotiff格式的遥感影像方法
2018/11/29 Python
Python常见数据结构之栈与队列用法示例
2019/01/14 Python
Python简单处理坐标排序问题示例
2019/07/11 Python
PyTorch的SoftMax交叉熵损失和梯度用法
2020/01/15 Python
python Matplotlib数据可视化(2):详解三大容器对象与常用设置
2020/09/30 Python
详解基于python的图像Gabor变换及特征提取
2020/10/26 Python
微软俄罗斯官方网站:Microsoft俄罗斯
2016/09/18 全球购物
植物选择:Botanic Choice
2017/02/15 全球购物
美国奢侈品在线团购网站:Gilt City
2017/11/16 全球购物
Vilebrequin美国官方网上商店:法国豪华泳装品牌
2020/02/22 全球购物
JSF面试题:Jsf中的核心类用那些?有什么作用?LiftCycle六大生命周期是什么?
2014/07/17 面试题
String s = new String(“xyz”);创建了几个String Object?
2015/08/05 面试题
外语专业毕业生自荐信
2014/04/14 职场文书
员工试用期自我评价
2014/09/18 职场文书
2014年个人债务授权委托书范本
2014/09/22 职场文书
2014年中班下学期工作总结
2014/12/11 职场文书
谢师宴学生致辞
2015/07/27 职场文书
四年级作文之植物
2019/09/20 职场文书