Python for Informatics 第11章之正则表达式(四)


Posted in Python onApril 21, 2016

注:以下文章原文来自于Dr Charles Severance 的 《Python for Informatics》

11.3 组合查询和抽取

如果我们想以“X-”字符串开头的行中找到数字,就像下面两行字符串:

X-DSPAM-Confidence: 0.8475
X-DSPAM-Probability: 0.0000

但我们不只是要任意行中的任意浮点数,而是具备上面格式的行中的数字。

我们可以创建以下正则表达式来选择这样的行:

^X-.*: [0-9.]+

这个表达式的含义是以“X-”两个字符开头,后面跟了任意个字符“.*",接着是一个冒号":"和空格" ",在空格之后呢是一个及以上的数字或小数点“[0-9.]+”。大家要注意的是方括号中的"[.]"不是匹配任何字符,而是匹配真正的".",这与方括号外的"."要予以区分。

这是一个非常紧凑的表达式,它将非常匹配我们感兴趣的行:

import re
hand = open('mobx-short.txt')
for line in hand:
line = line.rstrip()
if re.search('^X-.*: [0-9.]+', line)
print(line)

当我们运行这个程序,我们可以看到我们想要的数据被完美的过滤显示。

X-DSPAM-Confidence: 0.8475
X-DSPAM-Probability: 0.0000
X-DSPAM-Confidence: 0.6178
X-DSPAM-Probability: 0.0000

但是我们必须使用split解决提取数字的问题。然而当这个问题简单到能用split解决时,我们可以使用正则表达式的另一特点,一步达到查找和解析功能。

圆括号()是正则表达式中的另一特殊字符。当我们添加圆括号至表达式中,在字符串的匹配过程中它们将被忽略,但是当你使用findall()时,圆括号表示你想整个正则表达式被匹配,但是你只抽取位于圆括号内你感兴趣的那部分字符串。

所以我们对程序修改如下:

import re
hand = open('mbox-short.txt')
for line in hand:
line = line.rstrip()
x = re.findall('^X-.*: ([0-9.]+)', line)
if len(x) > 0 :
print(x)

我们在正则表达式中对匹配浮点数字部分添加圆括号,并且用findall()代替search(),返回我们想要的浮点数字部分。这个程序的输出如下:

['0.8475']
['0.0000']
['0.6178']
['0.0000']
['0.6961']
['0.0000']
..

虽然这些在列表中的数字还需要从字符串转换为浮点数,但是我们应用正则表达式的能力同时查找和抽取了我们感兴趣的的信息。

下面是使用这个技巧的另一个案例。如果你查看文件,你会发现有许多行是这样的格式:

Details: http://source.sakaiproject.org/viewsvn/?view=rev&rev=39772

如果我们想用同样的技巧抽取所有修订号(行末尾的整数),我们可以这样编写代码:

import re
hand = open('mbox-short.txt')
for line in hand:
line = line.rstrip()
x = re.findall('^Details:.*rev=([0-9]+)', line)
if len(x) > 0 :
print(x)

我们的正则表达式的是这样的,以"Details:"开头,之后可以是任意字符”.*",然后是"rev=",最后是一个以上的数字。我们希望行是匹配整个正则表达式,但我们只需要圆括号中"[0-9]+"的数字。当我们运行程序时,将得到以下输出:

['39772']
['39771']
['39770']
['39769']
...

记住,"[0-9]+"是贪婪的,它将尝试抽取任何可能的数字,所以我们得到的每个字符串都有五个数字。正则表达式库在行的开头和结尾两个方向进行扩展,只到它数到一个非数字的字符。

我们可以用正则表达式重做本书先前的一个练习。在这个练习中我们对每个邮件的时间感兴趣,我们寻找的行的格式如下:

From stephen.marquard@uct.ac.za Sat Jan 5 09:14:16 2008

并且我们想抽取每一行中日期中的小时信息。先前我们通过两次调用split实现。第一次我们将行分离成单词,然后我们对第五个单词基于冒号再次分离,拉出我们感兴趣的两个字符。

假定要查找的行是良好格式化的,那么只要想到少的代码就可以实现。但是当你为确保程序中碰到不具备这样格式而失效,而添加必要的错误检验(或者一个try/except块)时,这个代码将会膨胀到10-15行,并且难以读懂。

我们可以用下面的正则表达式使工作更简单:

^From .* [0-9][0-9]:

这个表达式的含义是以"From "开头(注意空格),然后跟着任意个字符".*",接着又是一个空格,然后是两个数字"[0-9][0-9]",再接着是一个冒号。我们要找的就是具备这样格式的行。

为了在findall中只抽出表示小时的两位数字,我们将表达式修改如下:

^From .* ([0-9][0-9]):

 最后这个程序是这样的:

import re
hand = open('mbox-short.txt')
for line in hand:
line = line.rstrip()
x = re.findall('ˆFrom .* ([0-9][0-9]):', line)
if len(x) > 0 : 
print(x)

程序运行结果如下:

['09']
['18']
['16']
['15']
...

相关阅读:

关于Python for Informatics 第11章之正则表达式(四)就给大家介绍到这里,希望对大家有所帮助。后续还会持续更新,更多精彩内容敬请关注!

Python 相关文章推荐
理解python多线程(python多线程简明教程)
Jun 09 Python
Python with的用法
Aug 22 Python
python多重继承新算法C3介绍
Sep 28 Python
书单|人生苦短,你还不用python!
Dec 29 Python
用python编写第一个IDA插件的实例
May 29 Python
python检测空间储存剩余大小和指定文件夹内存占用的实例
Jun 11 Python
python实现的MySQL增删改查操作实例小结
Dec 19 Python
Python数据结构之栈、队列及二叉树定义与用法浅析
Dec 27 Python
python pcm音频添加头转成Wav格式文件的方法
Jan 09 Python
python+pyqt5编写md5生成器
Mar 18 Python
Python实现实时数据采集新型冠状病毒数据实例
Feb 04 Python
Python selenium 加载并保存QQ群成员,去除其群主、管理员信息的示例代码
May 28 Python
Python for Informatics 第11章之正则表达式(二)
Apr 21 #Python
Python for Informatics 第11章 正则表达式(一)
Apr 21 #Python
编写Python爬虫抓取暴走漫画上gif图片的实例分享
Apr 20 #Python
Ruby使用eventmachine为HTTP服务器添加文件下载功能
Apr 20 #Python
Python实现HTTP协议下的文件下载方法总结
Apr 20 #Python
详解Python命令行解析工具Argparse
Apr 20 #Python
利用Python如何生成随机密码
Apr 20 #Python
You might like
在Windows版的PHP中使用ADO
2006/10/09 PHP
解析PHP中VC6 X86和VC9 X86的区别及 Non Thread Safe的意思
2013/06/28 PHP
php中curl和file_get_content的区别
2014/05/10 PHP
PHP在线打包下载功能示例
2016/10/15 PHP
php7性能提升的原因详解
2019/10/13 PHP
javascript 原型链维护和继承详解
2014/11/26 Javascript
jQuery中nextAll()方法用法实例
2015/01/07 Javascript
JavaScript常用脚本汇总(一)
2015/03/04 Javascript
Bootstrap栅格系统学习笔记
2016/11/25 Javascript
微信小程序 解决请求服务器手机预览请求不到数据的方法
2017/01/04 Javascript
js实现日历的简单算法
2017/01/24 Javascript
Vue中使用sass实现换肤功能
2018/09/07 Javascript
JavaScript解析JSON数据示例
2019/07/16 Javascript
javaScript中indexOf用法技巧
2019/11/26 Javascript
javascript实现留言板功能
2020/02/08 Javascript
vue 获取元素额外生成的data-v-xxx操作
2020/09/09 Javascript
javascript实现时钟动画
2020/12/03 Javascript
vue3自定义dialog、modal组件的方法
2021/01/04 Vue.js
[49:42]DOTA2上海特级锦标赛主赛事日 - 3 胜者组第二轮#2Secret VS EG第一局
2016/03/04 DOTA
python自定义解析简单xml格式文件的方法
2015/05/11 Python
python实现数组插入新元素的方法
2015/05/22 Python
python登录豆瓣并发帖的方法
2015/07/08 Python
为什么说Python可以实现所有的算法
2019/10/04 Python
520使用Python实现“我爱你”表白
2020/05/20 Python
利用python+ffmpeg合并B站视频及格式转换的实例代码
2020/11/24 Python
纯CSS改变webkit内核浏览器的滚动条样式
2014/04/17 HTML / CSS
菲律宾最大的网上花店和礼品店:PhilFlower.com
2018/02/09 全球购物
俄罗斯在线手表和珠宝商店:AllTime
2019/09/28 全球购物
中学老师的自我评价
2013/11/07 职场文书
优秀毕业生事迹材料
2014/02/12 职场文书
2014法制宣传日活动总结
2014/07/09 职场文书
2014年幼儿园教师工作总结
2014/11/08 职场文书
2014年设备管理工作总结
2014/11/26 职场文书
2016大学迎新欢迎词
2015/09/29 职场文书
节水宣传标语口号
2015/12/26 职场文书
python 中的@运算符使用
2021/05/26 Python