python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解


Posted in Python onFebruary 11, 2020

在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入输出如下:

input:我今天 赚了 10 个亿,老百姓very happy。

output:我今天赚了10个亿,老百姓very happy。

代码

def clean_space(text):
  """"
  处理多余的空格
  """
  match_regex = re.compile(u'[\u4e00-\u9fa5。\.,,::《》、\(\)()]{1} +(?<![a-zA-Z])|\d+ +| +\d+|[a-z A-Z]+')
  should_replace_list = match_regex.findall(text)
  order_replace_list = sorted(should_replace_list,key=lambda i:len(i),reverse=True)
  for i in order_replace_list:
    if i == u' ':
      continue
    new_i = i.strip()
    text = text.replace(i,new_i)
  return text

python去除英文单词之间多余的空格

re.sub(" +", " ", s)

import re 

s = "     info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html.     "
re.sub(" +", " ", s)

' '.join(s.split())

s = "     info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html.     "

s = ' '.join(s.split())
s

更多关于python使用正则表达式去除多余空格方法请查看下面的相关链接

Python 相关文章推荐
Python socket.error: [Errno 98] Address already in use的原因和解决方法
Aug 25 Python
通过Python来使用七牛云存储的方法详解
Aug 07 Python
Python中序列的修改、散列与切片详解
Aug 27 Python
Python使用django框架实现多人在线匿名聊天的小程序
Nov 29 Python
教你利用Python玩转histogram直方图的五种方法
Jul 30 Python
pytz格式化北京时间多出6分钟问题的解决方法
Jun 21 Python
python使用多线程编写tcp客户端程序
Sep 02 Python
Python:type、object、class与内置类型实例
Dec 25 Python
PyTorch实现AlexNet示例
Jan 14 Python
python 中的paramiko模块简介及安装过程
Feb 29 Python
Python用类实现扑克牌发牌的示例代码
Jun 01 Python
python必学知识之文件操作(建议收藏)
May 30 Python
python 函数中的参数类型
Feb 11 #Python
python正则过滤字母、中文、数字及特殊字符方法详解
Feb 11 #Python
python3正则模块re的使用方法详解
Feb 11 #Python
Python版中国省市经纬度
Feb 11 #Python
Python终端输出彩色字符方法详解
Feb 11 #Python
Python连接Oracle之环境配置、实例代码及报错解决方法详解
Feb 11 #Python
利用python中集合的唯一性实现去重
Feb 11 #Python
You might like
双冒号 ::在PHP中的使用情况
2015/11/05 PHP
如何在旧的PHP系统中使用PHP 5.3之后的库
2015/12/02 PHP
ExtJS 工具栏 分页事件参数
2010/03/05 Javascript
JavaScript判断对象是否为数组
2015/12/22 Javascript
AngularJS中的Directive自定义一个表格
2016/01/25 Javascript
浅析jQuery Ajax通用js封装
2016/06/22 Javascript
javascript 小数乘法结果错误的处理方法
2016/07/28 Javascript
jQuery自定义组件(导入组件)
2016/11/08 Javascript
微信页面倒计时代码(解决safari不兼容date的问题)
2016/12/13 Javascript
JS实现图片点击后出现模态框效果
2017/05/03 Javascript
前端常见跨域解决方案(全)
2017/09/19 Javascript
微信小程序canvas拖拽、截图组件功能
2018/09/04 Javascript
Angularjs实现数组随机排序的方法
2018/10/02 Javascript
Vue使用Proxy代理后仍无法生效的解决
2020/11/13 Javascript
[57:22]完美世界DOTA2联赛PWL S2 FTD vs PXG 第二场 11.27
2020/12/01 DOTA
python 类对象和实例对象动态添加方法(分享)
2017/12/31 Python
python多维数组切片方法
2018/04/13 Python
python如何发布自已pip项目的方法步骤
2018/10/09 Python
Python3.6实现带有简单界面的有道翻译小程序
2019/04/16 Python
python爬虫神器Pyppeteer入门及使用
2019/07/13 Python
Python多线程的退出控制实现
2020/08/10 Python
python 实现一个图形界面的汇率计算器
2020/11/09 Python
运行python提示no module named sklearn的解决方法
2020/11/29 Python
一款纯css3实现的颜色渐变按钮的代码教程
2014/11/12 HTML / CSS
HTML5 常用语法一览(列举不支持的属性)
2010/01/26 HTML / CSS
18-35岁旅游团的全球领导者:Contiki
2017/02/08 全球购物
德国帽子专家:Hutshopping
2019/11/03 全球购物
蔻驰英国官网:COACH英国
2020/07/19 全球购物
党委干部批评与自我批评发言稿
2014/09/28 职场文书
2014学生会工作总结报告
2014/12/02 职场文书
2015年秋季新学期寄语
2015/03/25 职场文书
网络舆情信息简报
2015/07/21 职场文书
暑假开始了,你的暑假学习计划写好了吗?
2019/07/04 职场文书
详解用Python把PDF转为Word方法总结
2021/04/27 Python
Python实现打乒乓小游戏
2021/09/25 Python
java executor包参数处理功能 
2022/02/15 Java/Android