解决python 文本过滤和清理问题


Posted in Python onAugust 28, 2019

问题

某些无聊的脚本小子在Web页面表单中填入了“pýtĥöñ”这样的文本,我们想以某种方式将其清理掉。

解决方案

文本过滤和清理所涵盖的范围非常广泛,涉及文本解析和数据处理方面的问题。在非常简单的层次上,我们可能会用基本的字符串函数(例如str.upper()和str.lower())将文本转换为标准形式。简单的替换操作可通过str.replace()或re.sub()来完成,它们把重点放在移除或修改特定的字符序列上。也可以利用unicodedata.normalize()来规范化文本。

然而我们可能想更进一步。比方说也许想清除整个范围内的字符,或者去掉音符标志。要完成这些任务,可以使用常被忽视的str.translate()方法。为了说明其用法,假设有如下这段混乱的字符串:

>>> s = 'pytĥon\fis\tawesome\r\n'
>>> s
'pytĥon\x0cis\tawesome\r\n'
>>>

第一步是清理空格。要做到这步,先建立一个小型的转换表,然后使用translate()方法:

>>> remap = {
...   ord('\t') : ' ',
...   ord('\f') : ' ',
...   ord('\r') : None    # Deleted
... }
>>> a = s.translate(remap)
>>> a
'pytĥon is awesome\n'

可以看到,类似t和f这样的空格符已经被重新映射成一个单独的空格。回车符r已经完全被删除掉了。

可以利用这种重新映射的思想进一步构建出更加庞大的转换表。例如,我们把所有的Unicode组合字符都去掉:

>>> import unicodedata
>>> import sys
>>> cmb_chrs = dict.fromkeys(c for c in range(sys.maxunicode) if unicodedata.combining(chr(c)))
...
>>> b = unicodedata.normalize('NFD', a)
>>> b
'pytĥon is awesome\n'
>>> b.translate(cmb_chrs)
'python is awesome\n'
>>>

在这个例子中,我们使用dict.fromkeys()方法构建了一个将每个Unicode组合字符都映射为None的字典。

原始输入会通过unicodedata.normalize()方法转换为分离形式,然后再通过translate()方法删除所有的重音符号。我们也可以利用相似的技术来去掉其他类型的字符(例如控制字符)。

下面来看另一个例子。这里有一张转换表将所有的Unicode十进制数字字符映射为它们对应的ASCII版本:

>>> digitmap = { c: ord('0') + unicodedata.digit(chr(c))
...        for c in range(sys.maxunicode)
...        if unicodedata.category(chr(c)) == 'Nd' }
...
>>> len(digitmap)
460
>>> # Arabic digits
>>> x = '\u0661\u0662\u0663'
>>> x.translate(digitmap)
'123'
>>>

另一种用来清理文本的技术涉及I/O解码和编码函数。大致思路是首先对文本做初步的清理,然后通过结合encode()和decode()操作来修改或清理文本。示例如下:

>>> a
'pytĥon is awesome\n'
>>> b = unicodedata.normalize('NFD', a)
>>> b.encode('ascii', 'ignore').decode('ascii')
'python is awesome\n'
>>>

这里的normalize()方法先对原始文本做分解操作。后续的ASCII编码/解码只是简单地一次性丢弃所有不需要的字符。很显然,这种方法只有当我们的最终目标就是ASCII形式的文本时才有用。

讨论

文本过滤和清理的一个主要问题就是运行时的性能。一般来说操作越简单,运行得就越快。对于简单的替换操作,用str.replace()通常是最快的方式——即使必须多次调用它也是如此。比方说如果要清理掉空格符,可以编写如下的代码:

def clean_spaces(s):
  s = s.replace('\r', '')
  s = s.replace('\t', ' ')
  s = s.replace('\f', ' ')
return s

如果试着调用它,就会发现这比使用translate()或者正则表达式的方法要快得多。

另一方面,如果需要做任何高级的操作,比如字符到字符的重映射或删除,那么translate()方法还是非常快的。

从整体来看,我们应该在具体的应用中去进一步揣摩性能方面的问题。不幸的是,想在技术上给出一条“放之四海而皆准”的建议是不可能的,所以应该尝试多种不同的方法,然后做性能统计分析。

尽管本节的内容主要关注的是文本,但类似的技术也同样适用于字节对象(byte),这包括简单的替换、翻译和正则表达式。

总结

以上所述是小编给大家介绍的解决python 文本过滤和清理问题,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

Python 相关文章推荐
python实现读取命令行参数的方法
May 22 Python
Python+matplotlib实现填充螺旋实例
Jan 15 Python
Python获取本机所有网卡ip,掩码和广播地址实例代码
Jan 22 Python
详解python中init方法和随机数方法
Mar 13 Python
零基础使用Python读写处理Excel表格的方法
May 02 Python
选择Python写网络爬虫的优势和理由
Jul 07 Python
django 基于中间件实现限制ip频繁访问过程详解
Jul 30 Python
python+django+rest框架配置创建方法
Aug 31 Python
Python高级property属性用法实例分析
Nov 19 Python
python单例设计模式实现解析
Jan 07 Python
Pandas中两个dataframe的交集和差集的示例代码
Dec 13 Python
python定义具名元组实例操作
Feb 28 Python
解决Python对齐文本字符串问题
Aug 28 #Python
python+jinja2实现接口数据批量生成工具
Aug 28 #Python
解决Atom安装Hydrogen无法运行python3的问题
Aug 28 #Python
opencv实现简单人脸识别
Feb 19 #Python
Atom Python 配置Python3 解释器的方法
Aug 28 #Python
python聚类算法解决方案(rest接口/mpp数据库/json数据/下载图片及数据)
Aug 28 #Python
Numpy的简单用法小结
Aug 28 #Python
You might like
Linux下CoreSeek及PHP扩展模块的安装
2012/09/23 PHP
php实现图片缩放功能类
2013/12/18 PHP
PHP调用C#开发的dll类库方法
2014/07/28 PHP
PHP实现批量生成App各种尺寸Logo
2015/03/19 PHP
PHP重定向与伪静态区别
2017/02/19 PHP
ThinkPHP5.0框架控制器继承基类和自定义类示例
2018/05/25 PHP
在图片上显示左右箭头类似翻页的代码
2013/03/04 Javascript
Ajax请求在数据量大的时候出现超时的解决方法
2014/02/27 Javascript
jquery bind(click)传参让列表中每行绑定一个事件
2014/08/06 Javascript
JS实现图文并茂的tab选项卡效果示例【附demo源码下载】
2016/09/21 Javascript
JavaScript计算值然后把值嵌入到html中的实现方法
2016/10/29 Javascript
初探nodeJS
2017/01/24 NodeJs
浅谈JavaScript中的apply/call/bind和this的使用
2017/02/26 Javascript
在Js页面通过POST传递参数跳转到新页面详解
2017/08/25 Javascript
Vue.js在数组中插入重复数据的实现代码
2017/11/17 Javascript
[48:21]Mski vs VGJ.S Supermajor小组赛C组 BO3 第一场 6.3
2018/06/04 DOTA
使用Python对IP进行转换的一些操作技巧小结
2015/11/09 Python
Python编程实现正则删除命令功能
2017/08/30 Python
django ajax json的实例代码
2018/05/29 Python
Python 实现「食行生鲜」签到领积分功能
2018/09/26 Python
详解Python下Flask-ApScheduler快速指南
2018/11/04 Python
Python自动化导出zabbix数据并发邮件脚本
2019/08/16 Python
使用NumPy读取MNIST数据的实现代码示例
2019/11/20 Python
python读取文件指定行内容实例讲解
2020/03/02 Python
django之从html页面表单获取输入的数据实例
2020/03/16 Python
Python打印特殊符号及对应编码解析
2020/05/07 Python
python smtplib发送多个email联系人的实现
2020/10/09 Python
python 下载文件的几种方法汇总
2021/01/06 Python
CSS3动画之利用requestAnimationFrame触发重新播放功能
2019/09/11 HTML / CSS
几个解决兼容IE6\7\8不支持html5标签的几个方法
2013/01/07 HTML / CSS
HTML5录音实践总结(Preact)
2020/05/07 HTML / CSS
德国最新街头服饰网上商店:BODYCHECK
2019/09/15 全球购物
自考毕业自我鉴定范文
2013/10/27 职场文书
Python-typing: 类型标注与支持 Any类型详解
2021/05/10 Python
Python turtle实现贪吃蛇游戏
2021/06/18 Python
Tomcat用户管理的优化配置详解
2022/03/31 Servers