Python实现简单文本字符串处理的方法


Posted in Python onJanuary 22, 2018

本文实例讲述了Python实现简单文本字符串处理的方法。分享给大家供大家参考,具体如下:

对于一个文本字符串,可以使用Python的string.split()方法将其切割。下面看看实际运行效果。

mySent = 'This book is the best book on python!'
print mySent.split()

输出:

['This', 'book', 'is', 'the', 'best', 'book', 'on', 'python!']

可以看到,切分的效果不错,但是标点符号也被当成了词,可以使用正则表达式来处理,其中分隔符是除单词、数字外的任意字符串。

import re
reg = re.compile('\\W*')
mySent = 'This book is the best book on python!'
listof = reg.split(mySent)
print listof

输出为:

['This', 'book', 'is', 'the', 'best', 'book', 'on', 'python', '']

现在得到了一系列词组成的词表,但是里面的空字符串需要去掉。

可以计算每个字符串的长度,只返回大于0的字符串。

import re
reg = re.compile('\\W*')
mySent = 'This book is the best book on python!'
listof = reg.split(mySent)
new_list = [tok for tok in listof if len(tok)>0]
print new_list

输出为:

['This', 'book', 'is', 'the', 'best', 'book', 'on', 'python']

最后,发现句子中的第一个字母是大写的。我们需要同一形式,把大写转化为小写。Python内嵌的方法,可以将字符串全部转化为小写(.lower())或大写(.upper())

import re
reg = re.compile('\\W*')
mySent = 'This book is the best book on python!'
listof = reg.split(mySent)
new_list = [tok.lower() for tok in listof if len(tok)>0]
print new_list

输出为:

['this', 'book', 'is', 'the', 'best', 'book', 'on', 'python']

下面来看一封完整的电子邮件:

内容

Hi Peter,

With Jose out of town, do you want to
meet once in a while to keep things
going and do some interesting stuff?

Let me know
Eugene
import re
reg = re.compile('\\W*')
email = open('email.txt').read()
list = reg.split(email)
new_txt = [tok.lower() for tok in list if len(tok)>0]
print new_txt

输出:

['hi', 'peter', 'with', 'jose', 'out', 'of', 'town', 'do', 'you', 'want', 'to', 'meet', 'once', 'in', 'a', 'while', 'to', 'keep', 'things', 'going', 'and', 'do', 'some', 'interesting', 'stuff', 'let', 'me', 'know', 'eugene']

更多关于Python相关内容可查看本站专题:《Python字符串操作技巧汇总》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
进一步了解Python中的XML 工具
Apr 13 Python
利用python写个下载teahour音频的小脚本
May 08 Python
python+selenium开发环境搭建图文教程
Aug 11 Python
Python搭建FTP服务器的方法示例
Jan 19 Python
Tensorflow 自带可视化Tensorboard使用方法(附项目代码)
Feb 10 Python
python 读取txt中每行数据,并且保存到excel中的实例
Apr 29 Python
Python3非对称加密算法RSA实例详解
Dec 06 Python
从numpy数组中取出满足条件的元素示例
Nov 26 Python
python爬取网易云音乐热歌榜实例代码
Aug 07 Python
python实现sm2和sm4国密(国家商用密码)算法的示例
Sep 26 Python
聊聊Python pandas 中loc函数的使用,及跟iloc的区别说明
Mar 03 Python
解析python中的jsonpath 提取器
Jan 18 Python
Python简单实现控制电脑的方法
Jan 22 #Python
Zookeeper接口kazoo实例解析
Jan 22 #Python
Python调用C语言的方法【基于ctypes模块】
Jan 22 #Python
python的Crypto模块实现AES加密实例代码
Jan 22 #Python
python实现求最长回文子串长度
Jan 22 #Python
Python获取本机所有网卡ip,掩码和广播地址实例代码
Jan 22 #Python
Linux CentOS7下安装python3 的方法
Jan 21 #Python
You might like
yii分页组件用法实例分析
2015/12/28 PHP
WordPress后台中实现图片上传功能的实例讲解
2016/01/11 PHP
php版微信自定义回复功能示例
2016/12/05 PHP
关于JavaScript的一些看法
2009/05/27 Javascript
jQuery实现Flash效果上下翻动的中英文导航菜单代码
2015/09/22 Javascript
javascript实现获取浏览器版本、浏览器类型
2015/12/02 Javascript
javascript中加var和不加var的区别 你真的懂吗
2016/01/06 Javascript
设置点击文本框或图片弹出日历控件的实现代码
2016/05/12 Javascript
js 获取当前web应用的上下文路径实现方法
2016/08/19 Javascript
JavaScript数据结构之单链表和循环链表
2017/11/28 Javascript
JavaScript中常见内置函数用法示例
2018/05/14 Javascript
详解easyui基于 layui.laydate日期扩展组件
2018/07/18 Javascript
[01:04:14]VP vs TNC 2018国际邀请赛小组赛BO2 第二场 8.17
2018/08/20 DOTA
python实现跨文件全局变量的方法
2014/07/07 Python
Python中的字符串操作和编码Unicode详解
2017/01/18 Python
python and or用法详解
2019/06/26 Python
PyCharm更改字体和界面样式的方法步骤
2019/09/27 Python
在Python中使用MySQL--PyMySQL的基本使用方法
2019/11/19 Python
突袭HTML5之Javascript API扩展4—拖拽(Drag/Drop)概述
2013/01/31 HTML / CSS
基于html5 DeviceOrientation 实现微信摇一摇功能
2015/09/25 HTML / CSS
HTML5 虚拟键盘出现挡住输入框的解决办法
2017/02/14 HTML / CSS
韩国CJ食品专卖网:CJonmart
2016/09/11 全球购物
Lookfantastic法国官网:英国知名美妆购物网站
2017/10/28 全球购物
Nike西班牙官方网站:Nike.com (ES)
2017/10/30 全球购物
水上运动奥特莱斯:Wasterports Outlet
2018/08/08 全球购物
Lookfantastic意大利官网:英国知名美妆购物网站
2019/05/31 全球购物
迅雷Cued工作心得体会
2014/01/27 职场文书
《浅水洼里的小鱼》听课反思
2014/02/28 职场文书
残疾人小组计划书
2014/04/27 职场文书
冬季施工防火方案
2014/05/17 职场文书
应届生求职信范文
2014/06/30 职场文书
销售人才自我评价范文
2014/09/27 职场文书
绵山导游词
2015/02/05 职场文书
关于清明节的演讲稿2015
2015/03/18 职场文书
python实现自动化群控的步骤
2021/04/11 Python
阿里云服务器(windows)手动部署FTP站点详细教程
2022/08/05 Servers