Python匹配中文的正则表达式


Posted in Python onMay 11, 2016

正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同;但不用担心,不被支持的语法通常是不常用的部分。

Python正则表达式简介

正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。

Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。

re 模块使 Python 语言拥有全部的正则表达式功能。

compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。

re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数。

以上说的都是给正文做铺垫的,下面看下python正则表达式如何匹配中文的。

# -*- coding: utf-8 -*-
import re
def findPart(regex, text, name):
res=re.findall(regex, text)
if res:
print "There are %d %s parts:\n"% (len(res), name)
for r in res:
print "\t",r.encode("utf8")
print
text ="#who#helloworld#a中文x#"
usample=unicode(text,'utf8')
findPart(u"#[\w\u2E80-\u9FFF]+#", usample, "unicode chinese")

注:

几个主要非英文语系字符范围

2E80~33FFh:中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符,中日韩的符号、标点、带圈或带括符文数字、月份,以及日本的假名组合、单位、年号、月份、日期、时间等。

3400~4DFFh:中日韩认同表意文字扩充A区,总计收容6,582个中日韩汉字。

4E00~9FFFh:中日韩认同表意文字区,总计收容20,902个中日韩汉字。

A000~A4FFh:彝族文字区,收容中国南方彝族文字和字根。

AC00~D7FFh:韩文拼音组合字区,收容以韩文音符拼成的文字。

F900~FAFFh:中日韩兼容表意文字区,总计收容302个中日韩汉字。

FB00~FFFDh:文字表现形式区,收容组合拉丁文字、希伯来文、阿拉伯文、中日韩直式标点、小符号、半角符号、全角

(
#!/usr/bin/python3
# -*- coding: UTF-8 -*-
import re
message = u'天人合一'.encode('utf8')
print(re.search(u'人'.encode('utf8'), message).group())
交互模式下的例子
>>> import re
>>> s='Phone No. 010-87654321'
>>> 
>>> r=re.compile(r'(\d+)-(\d+)')
>>> m=r.search(s)
>>> m
<_sre.SRE_Match object at 0x010EE218>
)

以上所述是小编给大家介绍的Python正则表达式匹配中文的方法,希望对大家有所帮助!

Python 相关文章推荐
flask中使用SQLAlchemy进行辅助开发的代码
Feb 10 Python
Python的Flask站点中集成xhEditor文本编辑器的教程
Jun 13 Python
python笔记:mysql、redis操作方法
Jun 28 Python
Python3.6日志Logging模块简单用法示例
Jun 14 Python
python 获得任意路径下的文件及其根目录的方法
Feb 16 Python
Python函数的参数常见分类与用法实例详解
Mar 30 Python
python elasticsearch从创建索引到写入数据的全过程
Aug 04 Python
pywinauto自动化操作记事本
Aug 26 Python
8段用于数据清洗Python代码(小结)
Oct 31 Python
Pytorch在NLP中的简单应用详解
Jan 08 Python
彻底搞懂 python 中文乱码问题(深入分析)
Feb 28 Python
使用Python下载抖音各大V视频的思路详解
Feb 06 Python
Python3使用requests发闪存的方法
May 11 #Python
Python3控制路由器——使用requests重启极路由.py
May 11 #Python
Python3使用requests登录人人影视网站的方法
May 11 #Python
在Django中进行用户注册和邮箱验证的方法
May 09 #Python
Python数据类型详解(三)元祖:tuple
May 08 #Python
Python数据类型详解(二)列表
May 08 #Python
Python数据类型详解(一)字符串
May 08 #Python
You might like
php 高效率写法 推荐
2010/02/21 PHP
兼容性比较好的PHP生成缩略图的代码
2011/01/12 PHP
PHP不用第三变量交换2个变量的值的解决方法
2013/06/02 PHP
Yii框架中 find findAll 查找出制定的字段的方法对比
2014/09/10 PHP
php使用Session和文件统计在线人数
2015/07/04 PHP
PHP 前加at符合@的作用解析
2015/07/31 PHP
PHP mysqli_free_result()与mysqli_fetch_array()函数详解
2016/09/21 PHP
详解Yii实现分页的两种方法
2017/01/14 PHP
js每次Title显示不同的名言
2008/09/25 Javascript
15 个 JavaScript Web UI 库
2010/05/19 Javascript
JavaScript中的排序算法代码
2011/02/22 Javascript
一个支付页面DEMO附截图
2014/07/22 Javascript
jQuery旋转木马式幻灯片轮播特效
2015/12/04 Javascript
JavaScript Base64 作为文件上传的实例代码解析
2017/02/14 Javascript
jsTree事件和交互以及插件plugins详解
2017/08/29 Javascript
在Django的URLconf中使用命名组的方法
2015/07/18 Python
Django ORM框架的定时任务如何使用详解
2017/10/19 Python
Python实现在某个数组中查找一个值的算法示例
2018/06/27 Python
pyinstaller参数介绍以及总结详解
2019/07/12 Python
selenium WebDriverWait类等待机制的实现
2020/03/18 Python
python3用PyPDF2解析pdf文件,用正则匹配数据方式
2020/05/12 Python
Win 10下Anaconda虚拟环境的教程
2020/05/18 Python
浅谈numpy中函数resize与reshape,ravel与flatten的区别
2020/06/18 Python
美国玛丽莎收藏奢华时尚商店:Marissa Collections
2016/11/21 全球购物
Ticketmaster意大利:音乐会、节日、艺术和剧院的官方门票
2019/12/23 全球购物
环保专业大学生职业规划设计
2014/01/10 职场文书
优秀学生事迹材料
2014/02/08 职场文书
根叔历年演讲稿
2014/05/20 职场文书
教室布置标语
2014/06/26 职场文书
代领毕业证委托书
2014/08/02 职场文书
党员自我剖析材料范文
2014/10/06 职场文书
2014年创卫工作总结
2014/11/24 职场文书
小学二年级数学教学计划
2015/01/20 职场文书
自我检讨报告
2015/01/28 职场文书
开会通知短信大全
2015/04/20 职场文书
公司周年庆寄语
2019/06/21 职场文书