编程 Python

如何Python使用re模块实现okenizer

Posted in Python onApril 30, 2022

一个简单的tokenizer

分词（tokenization）任务是Python字符串处理中最为常见任务了。我们这里讲解用正则表达式构建简单的表达式分词器（tokenizer），它能够将表达式字符串从左到右解析为标记(tokens)流。

给定如下的表达式字符串：

text = 'foo = 12 + 5 * 6'

我们想要将其转换为下列以序列对呈现的分词结果：

tokens = [('NAME', 'foo'), ('EQ', '='), ('NUM', '12'), ('PLUS', '+'),\
    ('NUM', '5'), ('TIMES', '*'), ('NUM', '6')]

要完成这样的分词操作，我们首先需要定义出所有可能的标记模式（所谓模式（pattern），为用来描述或者匹配/系列匹配某个句法规则的字符串，这里我们用正则表达式来做为模式），注意此处要包括空格whitespace，否则字符串中出现任何模式中没有的字符后，扫描就会停止。因为我们还需要给标记以NAME、EQ等名称，我们采用正则表达式中的命名捕获组来实现。

import re
NAME = r'(?P<NAME>[a-zA-Z_][a-zA-Z_0-9]*)' 
# 这里?P<NAME>表示模式名称，()表示一个正则表达式捕获组，合在一起即一个命名捕获组
EQ = r'(?P<EQ>=)'
NUM = r'(?P<NUM>\d+)' #\d表示匹配数字，+表示任意数量
PLUS = r'(?P<PLUS>\+)' #需要用\转义
TIMES = r'(?P<TIMES>\*)' #需要用\转义
WS = r'(?P<WS>\s+)' #\s表示匹配空格， +表示任意数量
master_pat = re.compile("|".join([NAME, EQ, NUM, PLUS, TIMES, WS]))  # | 用于选择多个模式，表示"或"

接下来我们用模式对象中的scanner()方法来完成分词操作，该方法创建一个扫描对象：

scanner = master_pat.scanner(text)

然后可以用match()方法获取单次匹配结果，一次匹配一个模式：

scanner = master_pat.scanner(text)
m = scanner.match() 
print(m.lastgroup, m.group()) # NAME foo
m = scanner.match()
print(m.lastgroup, m.group()) # WS

当然这样一次一次调用过于麻烦，我们可以使用迭代器来批量调用，并将单次迭代结果以具名元组形式存储

Token = namedtuple('Token', ['type', 'value'])
def generate_tokens(pat, text):
    scanner = pat.scanner(text)
    for m in iter(scanner.match, None):
        #scanner.match做为迭代器每次调用的方法，
        #None为哨兵的默认值，表示迭代到None停止
        yield Token(m.lastgroup, m.group())
for tok in generate_tokens(master_pat, "foo = 42"):
    print(tok)

最终显示表达式串"foo = 12 + 5 * 6"的tokens流为：

Token(type='NAME', value='foo')
Token(type='WS', value=' ')
Token(type='EQ', value='=')
Token(type='WS', value=' ')
Token(type='NUM', value='12')
Token(type='WS', value=' ')
Token(type='PLUS', value='+')
Token(type='WS', value=' ')
Token(type='NUM', value='5')
Token(type='WS', value=' ')
Token(type='TIMES', value='*')
Token(type='WS', value=' ')
Token(type='NUM', value='6')

过滤tokens流

接下来我们想要过滤掉空格标记，使用生成器表达式即可：

tokens = (tok for tok in generate_tokens(master_pat, "foo = 12 + 5 * 6")
          if tok.type != 'WS')
for tok in tokens:
    print(tok)

可以看到空格被成功过滤：

Token(type='NAME', value='foo')
Token(type='EQ', value='=')
Token(type='NUM', value='12')
Token(type='PLUS', value='+')
Token(type='NUM', value='5')
Token(type='TIMES', value='*')
Token(type='NUM', value='6')

注意子串匹配陷阱

tokens在正则表达式(即"|".join([NAME, EQ, NUM, PLUS, TIMES, WS]))中顺序也非常重要。因为在进行匹配时，re模块就会按照指定的顺序对模式做匹配。故若碰巧某个模式是另一个较长模式的子串时，必须保证较长的模式在前面优先匹配。如下面分别展示正确的和错误的匹配方法：

LT = r'(?P<LT><)'
LE = r'(?P<LE><=)'
EQ = r'(?P<EQ>>=)'
master_pat = re.compile("|".join([LE, LT, EQ]))  # 正确的顺序
master_pat = re.compile("|".join([LT, LE, EQ]))  # 错误的顺序

第二种顺序的错误之处在于，这样会把'<='文本匹配为LT('<')紧跟着EQ('=')，而没有匹配为单独的LE(<=)。

我们对于“有可能”形成子串的模式也要小心，比如下面这样：

PRINT = r'(?P<PRINT>print)'
NAME = r'(?P<NAME>[a-zA-Z_][a-zA-Z_0-9]*)'
master_pat = re.compile("|".join([PRINT, NAME]))  # 正确的顺序
for tok in generate_tokens(master_pat, "printer"):
    print(tok)

可以看到被print实际上成了另一个模式的子串，导致另一个模式的匹配出现了问题：

# Token(type='PRINT', value='print')
# Token(type='NAME', value='er')

更高级的语法分词，建议采用像PyParsing或PLY这样的包。特别地，对于英文自然语言文章的分词，一般被集成到各类NLP的包中（一般分为按空格拆分、处理前后缀、去掉停用词三步骤）。对于中文自然语言处理分词也有丰富的工具（比如jieba分词工具包）。

引用

[1] Martelli A, Ravenscroft A, Ascher D. Python cookbook[M]. " O'Reilly Media, Inc.", 2015. 数学是符号的艺术，音乐是上界的语言。

到此这篇关于Python使用re模块实现okenizer的文章就介绍到这了！

如何Python使用re模块实现okenizer

- Author -

orion-orion

- Original Sources -

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Tags in this post...

Python 相关文章推荐

python正则分组的应用

Nov 10 Python

python脚本监控docker容器

Apr 27 Python

关于Python面向对象编程的知识点总结

Feb 14 Python

tensorflow实现softma识别MNIST

Mar 12 Python

基于Django与ajax之间的json传输方法

May 29 Python

python 地图经纬度转换、纠偏的实例代码

Aug 06 Python

python解析xml简单示例

Jun 21 Python

python3安装crypto出错及解决方法

Jul 30 Python

基于Python中isfile函数和isdir函数使用详解

Nov 29 Python

详解matplotlib中pyplot和面向对象两种绘图模式之间的关系

Jan 22 Python

Python datetime模块的使用示例

Feb 02 Python

Pytorch 如何加速Dataloader提升数据读取速度

May 28 Python

如何使用python包中的sched事件调度器

Apr 30 #Python

详解OpenCV获取高动态范围（HDR）成像

详解OpenCV曝光融合

python使用shell脚本创建kafka连接器

Apr 29 #Python

python中pycryto实现数据加密

Apr 29 #Python

Python如何快速找到多个字典中的公共键(key)

Apr 29 #Python

Python如何让字典保持有序排列

Apr 29 #Python

tkFileDialog(1) ftpserver(1) SeaTunnel(1) 黑名单(1) ElementTree(1) OpenAI baselines(1) BeautifulSoup4(2) Odoo(1) tfx(1) NFS(1)

You might like

一些php技巧与注意事项分析

2011/02/03 PHP

基于php权限分配的实现代码

2013/04/28 PHP

利用curl 多线程模拟并发的详解

2013/06/14 PHP

javascript 装载iframe子页面，自适应高度

2009/03/20 Javascript

锋利的jQuery 要点归纳（二） jQuery中的DOM操作（下）

2010/03/23 Javascript

javascript与CSS复习（《精通javascript》）

2010/06/29 Javascript

jquery实现网站超链接和图片提示效果

2013/03/21 Javascript

JQuery判断HTML元素是否存在的两种解决方法

2013/12/26 Javascript

浅谈JavaScript函数的四种存在形态

2016/06/08 Javascript

微信小程序火车票查询实例讲解

2016/10/17 Javascript

浅谈Node异步编程的机制

2017/10/18 Javascript

总结JavaScript在IE9之前版本中内存泄露问题

2018/04/28 Javascript

JS实现继承的几种常用方式示例

2019/06/22 Javascript

Vue替代marquee标签超出宽度文字横向滚动效果

2019/12/09 Javascript

Vue.js中的高级面试题及答案

2020/01/13 Javascript

[49:21]2018DOTA2亚洲邀请赛3月30日小组赛B组 Effect VS iG

2018/03/31 DOTA

在Python的gevent框架下执行异步的Solr查询的教程

2015/04/16 Python

Windows上配置Emacs来开发Python及用Python扩展Emacs

2015/11/20 Python

在python3环境下的Django中使用MySQL数据库的实例

2017/08/29 Python

Python实现将MySQL数据库表中的数据导出生成csv格式文件的方法

2018/01/11 Python

python3的UnicodeDecodeError解决方法

2019/12/20 Python

python语言是免费还是收费的？

2020/06/15 Python

浅谈Python 函数式编程

2020/06/20 Python

Html5如何唤起百度地图App的方法

2019/01/27 HTML / CSS

HTML5进阶段内联标签汇总（小篇）

2016/07/13 HTML / CSS

德国旅游网站：weg.de

2018/06/03 全球购物

Square Off美国/加拿大：世界上最聪明的国际象棋棋盘

2018/12/06 全球购物

经贸韩语专业大学生职业规划

2014/02/14 职场文书

安全在我心中演讲稿

2014/09/01 职场文书

12.4全国法制宣传日活动方案

2014/11/02 职场文书

领导工作表现评语

2015/01/04 职场文书

2015年党员承诺书

2015/01/21 职场文书

公司搬迁通知

2015/04/20 职场文书

七年级生物教学反思

2016/02/20 职场文书

教师学期述职自我鉴定

2019/08/16 职场文书

在 Python 中利用 Pool 进行多线程

2022/04/24 Python

如何Python使用re模块实现okenizer

目录

一个简单的tokenizer

过滤tokens流

注意子串匹配陷阱

引用