python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解


Posted in Python onFebruary 11, 2020

在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入输出如下:

input:我今天 赚了 10 个亿,老百姓very happy。

output:我今天赚了10个亿,老百姓very happy。

代码

def clean_space(text):
  """"
  处理多余的空格
  """
  match_regex = re.compile(u'[\u4e00-\u9fa5。\.,,::《》、\(\)()]{1} +(?<![a-zA-Z])|\d+ +| +\d+|[a-z A-Z]+')
  should_replace_list = match_regex.findall(text)
  order_replace_list = sorted(should_replace_list,key=lambda i:len(i),reverse=True)
  for i in order_replace_list:
    if i == u' ':
      continue
    new_i = i.strip()
    text = text.replace(i,new_i)
  return text

python去除英文单词之间多余的空格

re.sub(" +", " ", s)

import re 

s = "     info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html.     "
re.sub(" +", " ", s)

' '.join(s.split())

s = "     info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html.     "

s = ' '.join(s.split())
s

更多关于python使用正则表达式去除多余空格方法请查看下面的相关链接

Python 相关文章推荐
pyv8学习python和javascript变量进行交互
Dec 04 Python
Django中STATIC_ROOT和STATIC_URL及STATICFILES_DIRS浅析
May 08 Python
在PyCharm中批量查找及替换的方法
Jan 20 Python
Python中如何导入类示例详解
Apr 17 Python
解决pycharm 远程调试 上传 helpers 卡住的问题
Jun 27 Python
python sklearn常用分类算法模型的调用
Oct 16 Python
python pprint模块中print()和pprint()两者的区别
Feb 10 Python
Python描述符descriptor使用原理解析
Mar 21 Python
Python OpenCV读取中文路径图像的方法
Jul 02 Python
python 图像插值 最近邻、双线性、双三次实例
Jul 05 Python
使用qt quick-ListView仿微信好友列表和聊天列表的示例代码
Jun 13 Python
Pandas 稀疏数据结构的实现
Jul 25 Python
python 函数中的参数类型
Feb 11 #Python
python正则过滤字母、中文、数字及特殊字符方法详解
Feb 11 #Python
python3正则模块re的使用方法详解
Feb 11 #Python
Python版中国省市经纬度
Feb 11 #Python
Python终端输出彩色字符方法详解
Feb 11 #Python
Python连接Oracle之环境配置、实例代码及报错解决方法详解
Feb 11 #Python
利用python中集合的唯一性实现去重
Feb 11 #Python
You might like
php str_pad 函数用法简介
2009/07/11 PHP
PHP中常用的字符串格式化函数总结
2014/11/19 PHP
thinkPHP3.2.2框架行为扩展及demo示例
2018/06/19 PHP
Javascript中的数学函数
2007/04/04 Javascript
Js 获取HTML DOM节点元素的方法小结
2009/04/24 Javascript
JQuery最佳实践之精妙的自定义事件
2010/08/11 Javascript
js判断选择时间不能小于当前时间的示例代码
2013/09/24 Javascript
原生JavaScript实现合并多个数组示例
2014/09/21 Javascript
JQuery删除DOM节点的方法
2015/06/11 Javascript
Webwork 实现文件上传下载代码详解
2016/02/02 Javascript
EasyUi中的Combogrid 实现分页和动态搜索远程数据
2016/04/01 Javascript
深入理解setTimeout函数和setInterval函数
2016/05/20 Javascript
jQuery插件zTree实现删除树子节点的方法示例
2017/03/08 Javascript
js中DOM事件绑定分析
2018/03/18 Javascript
Vue 页面切换效果之 BubbleTransition(推荐)
2018/04/08 Javascript
Node.js笔记之process模块解读
2018/05/31 Javascript
对angular2中的ngfor和ngif指令嵌套实例讲解
2018/09/12 Javascript
使用Python实现BT种子和磁力链接的相互转换
2015/11/09 Python
Python-嵌套列表list的全面解析
2016/06/08 Python
Python判断变量名是否合法的方法示例
2019/01/28 Python
解析HTML5中的新功能本地存储localStorage
2016/03/01 HTML / CSS
澳大利亚领先的在线葡萄酒零售商:Get Wines Direct
2018/03/27 全球购物
德国黑胶唱片、街头服装及运动鞋网上商店:HHV
2018/08/24 全球购物
俄罗斯金苹果网上化妆品和香水商店:Goldapple
2019/12/01 全球购物
小学美术教学反思
2014/02/01 职场文书
优良学风班总结材料
2014/02/08 职场文书
资金主管岗位职责范本
2014/03/04 职场文书
银行内勤岗位职责
2014/04/09 职场文书
软件售后服务承诺书
2014/05/21 职场文书
安全标语口号
2014/06/09 职场文书
学校学雷锋活动总结
2014/06/26 职场文书
庆七一活动总结
2014/08/27 职场文书
民主生活会对照检查材料
2014/09/22 职场文书
楚门的世界观后感
2015/06/03 职场文书
小学数学国培研修日志
2015/11/13 职场文书
2015元旦感言
2015/12/09 职场文书