python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解


Posted in Python onFebruary 11, 2020

在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入输出如下:

input:我今天 赚了 10 个亿,老百姓very happy。

output:我今天赚了10个亿,老百姓very happy。

代码

def clean_space(text):
  """"
  处理多余的空格
  """
  match_regex = re.compile(u'[\u4e00-\u9fa5。\.,,::《》、\(\)()]{1} +(?<![a-zA-Z])|\d+ +| +\d+|[a-z A-Z]+')
  should_replace_list = match_regex.findall(text)
  order_replace_list = sorted(should_replace_list,key=lambda i:len(i),reverse=True)
  for i in order_replace_list:
    if i == u' ':
      continue
    new_i = i.strip()
    text = text.replace(i,new_i)
  return text

python去除英文单词之间多余的空格

re.sub(" +", " ", s)

import re 

s = "     info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html.     "
re.sub(" +", " ", s)

' '.join(s.split())

s = "     info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html.     "

s = ' '.join(s.split())
s

更多关于python使用正则表达式去除多余空格方法请查看下面的相关链接

Python 相关文章推荐
python进阶教程之模块(module)介绍
Aug 30 Python
python求解水仙花数的方法
May 11 Python
使用Python的urllib2模块处理url和图片的技巧两则
Feb 18 Python
Python实现登录接口的示例代码
Jul 21 Python
Python实现判断一行代码是否为注释的方法
May 23 Python
python3爬虫怎样构建请求header
Dec 23 Python
pthon贪吃蛇游戏详细代码
Jan 27 Python
Python实现网页截图(PyQT5)过程解析
Aug 12 Python
python3 requests库文件上传与下载实现详解
Aug 22 Python
Python数据处理篇之Sympy系列(五)---解方程
Oct 12 Python
如何用tempfile库创建python进程中的临时文件
Jan 28 Python
python如何查找列表中元素的位置
May 30 Python
python 函数中的参数类型
Feb 11 #Python
python正则过滤字母、中文、数字及特殊字符方法详解
Feb 11 #Python
python3正则模块re的使用方法详解
Feb 11 #Python
Python版中国省市经纬度
Feb 11 #Python
Python终端输出彩色字符方法详解
Feb 11 #Python
Python连接Oracle之环境配置、实例代码及报错解决方法详解
Feb 11 #Python
利用python中集合的唯一性实现去重
Feb 11 #Python
You might like
提升PHP执行速度全攻略(上)
2006/10/09 PHP
用php过滤危险html代码的函数
2008/07/22 PHP
PHP与以太坊交互详解
2018/08/24 PHP
数组Array进行原型prototype扩展后带来的for in遍历问题
2010/02/07 Javascript
jquery获取input的value问题说明
2010/08/19 Javascript
JavaScript中“+”的陷阱深刻理解
2012/12/04 Javascript
js 控制下拉菜单刷新的方法
2013/03/03 Javascript
js中substring和substr的详细介绍与用法
2013/08/29 Javascript
jquery统计复选框选中示例
2013/11/05 Javascript
多功能jQuery树插件zTree实现权限列表简单实例
2016/07/12 Javascript
JS两种类型的表单提交方法实例分析
2016/11/28 Javascript
bootstrap vue.js实现tab效果
2017/02/07 Javascript
微信小程序 引用其他js文件实现代码
2017/02/22 Javascript
vue中appear的用法
2017/08/17 Javascript
Javascript通过控制类名更改样式
2019/05/24 Javascript
JavaScript canvas绘制折线图
2020/02/18 Javascript
小程序点餐界面添加购物车左右摆动动画
2020/09/23 Javascript
[04:13]2014DOTA2国际邀请赛 专访DC目前形势不容乐观
2014/07/12 DOTA
在SAE上部署Python的Django框架的一些问题汇总
2015/05/30 Python
python中常用的九种预处理方法分享
2016/09/11 Python
简单谈谈Python中的json与pickle
2017/07/19 Python
老生常谈Python startswith()函数与endswith函数
2017/09/08 Python
wxPython实现窗口用图片做背景
2018/04/25 Python
pandas的唯一值、值计数以及成员资格的示例
2018/07/25 Python
对python操作kafka写入json数据的简单demo分享
2018/12/27 Python
详解Python中的编码问题(encoding与decode、str与bytes)
2020/09/30 Python
Python实现树莓派摄像头持续录像并传送到主机的步骤
2020/11/30 Python
Python 实现进度条的六种方式
2021/01/06 Python
css3实现元素环绕中心点布局的方法示例
2019/01/15 HTML / CSS
教师竞聘上岗演讲稿
2014/09/03 职场文书
甜品蛋糕店创业计划书
2014/09/21 职场文书
2014年客服工作总结范文
2014/11/13 职场文书
监守自盗观后感
2015/06/10 职场文书
2016年大学生实习单位评语
2015/12/01 职场文书
导游词之南京汤山温泉
2019/11/26 职场文书
使用Nginx+Tomcat实现负载均衡的全过程
2022/05/30 Servers