python的即时标记项目练习笔记


Posted in Python onSeptember 18, 2014

这是《python基础教程》后面的实践,照着写写,一方面是来熟悉python的代码方式,另一方面是练习使用python中的基本的以及非基本的语法,做到熟能生巧。

这个项目一开始比较简单,不过重构之后就有些复杂了,但是更灵活了。

按照书上所说,重构之后的程序,分为四个模块:处理程序模块,过滤器模块,规则(其实应该是处理规则),语法分析器。

先来说处理程序模块,这个模块的作用有两个,一个是提供那些固定的html标记的输出(每一个标记都有start和end),另一个是对这个标记输出的开始和结束提供了一个友好的访问接口。来看下程序handlers.py:

class Handler:

    '''

    '''

    def callback(self, prefix, name, *args):

        method = getattr(self,prefix+name,None)

        if callable(method): return method(*args)

    def start(self, name):

        self.callback('start_', name)

    def end(self, name):

        self.callback('end_', name)

    def sub(self, name):

        def substitution(match):

            result = self.callback('sub_', name, match)

            if result is None: match.group(0)

            return result

        return substitution
class HTMLRenderer(Handler):

    '''
    '''

    def start_document(self):

        print '<html><head><title>...</title></head><body>'

    def end_document(self):

        print '</body></html>'

    def start_paragraph(self):

        print '<p>'

    def end_paragraph(self):

        print '</p>'

    def start_heading(self):

        print '<h2>'

    def end_heading(self):

        print '</h2>'

    def start_list(self):

        print '<ul>'

    def end_list(self):

        print '</ul>'

    def start_listitem(self):

        print '<li>'

    def end_listitem(self):

        print '</li>'

    def start_title(self):

        print '<h1>'

    def end_title(self):

        print '</h1>'

    def sub_emphasis(self, match):

        return '<em>%s</em>' % match.group(1)

    def sub_url(self,  match):

        return '<a href="%s">%s</a>' % (match.group(1),match.group(1))

    def sub_mail(self,  match):

        return '<a href="mailto:%s">%s</a>' % (match.group(1),match.group(1))

    def feed(self, data):

        print data

这个程序堪称是整个“项目”的基石所在:提供了标签的输出,以及字符串的替换。理解起来也比较简单。

再来看第二个模块“过滤器”,这个模块更为简单,其实就是一个正则表达式的字符串。相关代码如下:

self.addFilter(r'\*(.+?)\*', 'emphasis')

self.addFilter(r'(http://[\.a-z0-9A-Z/]+)', 'url')

self.addFilter(r'([\.a-zA-Z]+@[\.a-zA-Z]+[a-zA-Z]+)','mail')

这就是三个过滤器了,分别是:强调牌过滤器(用×号标出的),url牌过滤器,email牌过滤器。熟悉正则表达式的同学理解起来是没有压力的。

再来看第三个模块“规则”,这个模块,抛开那祖父类不说,其他类应该有的两个方法是condition和action,前者是用来判断读进来的字符串是不是符合自家规则,后者是用来执行操作的,所谓的执行操作就是指调用“处理程序模块”,输出前标签、内容、后标签。 来看下这个模块的代码,其实这个里面几个类的关系,画到类图里面看会比较清晰。 rules.py:

class Rule:

    def action(self, block, handler):

        handler.start(self.type)

        handler.feed(block)

        handler.end(self.type)

        return True
class HeadingRule(Rule):

    type = 'heading'

    def condition(self, block):

        return not '\n' in block and len(block) <= 70 and not block[-1] == ':'
class TitleRule(HeadingRule):

    type = 'title'

    first = True
    def condition(self, block):

        if not self.first: return False

        self.first = False

        return HeadingRule.condition(self, block)
class ListItemRule(Rule):

    type = 'listitem'

    def condition(self, block):

        return block[0] == '-'

    def action(self,block,handler):

        handler.start(self.type)

        handler.feed(block[1:].strip())

        handler.end(self.type)

        return True
class ListRule(ListItemRule):

    type = 'list'

    inside = False

    def condition(self, block):

        return True

    def action(self,block, handler):

        if not self.inside and ListItemRule.condition(self,block):

            handler.start(self.type)

            self.inside = True

        elif self.inside and not ListItemRule.condition(self,block):

            handler.end(self.type)

            self.inside = False

        return False
class ParagraphRule(Rule):

    type = 'paragraph'

    def condition(self, block):

        return True

补充utils.py:

def line(file):

    for line in file:yield line

    yield '\n'
def blocks(file):

    block = []

    for line in lines(file):

        if line.strip():

            block.append(line)

        elif block:

            yield ''.join(block).strip()

            block = []

最后隆重的来看下“语法分析器模块”,这个模块的作用其实就是协调读入的文本和其他模块的关系。在往重点说就是,提供了两个存放“规则”和“过滤器”的列表,这么做的好处就是使得整个程序的灵活性得到了极大的提高,使得规则和过滤器变成的热插拔的方式,当然这个也归功于前面在写规则和过滤器时每一种类型的规则(过滤器)都单独的写成了一个类,而不是用if..else来区分。 看代码:

import sys, re

from handlers import *

from util import *

from rules import *
class Parser:

    def __init__(self,handler):

        self.handler = handler

        self.rules = []

        self.filters = []
    def addRule(self, rule):

        self.rules.append(rule)
    def addFilter(self,pattern,name):

        def filter(block, handler):

            return re.sub(pattern, handler.sub(name),block)

        self.filters.append(filter)
    def parse(self, file):

        self.handler.start('document')

        for block in blocks(file):

            for filter in self.filters:

                block = filter(block, self.handler)

            for rule in self.rules:

                if rule.condition(block):

                    last = rule.action(block, self.handler)

                    if last:break

        self.handler.end('document')
class BasicTextParser(Parser):

    def __init__(self,handler):

        Parser.__init__(self,handler)

        self.addRule(ListRule())

        self.addRule(ListItemRule())

        self.addRule(TitleRule())

        self.addRule(HeadingRule())

        self.addRule(ParagraphRule())
        self.addFilter(r'\*(.+?)\*', 'emphasis')

        self.addFilter(r'(http://[\.a-z0-9A-Z/]+)', 'url')

        self.addFilter(r'([\.a-zA-Z]+@[\.a-zA-Z]+[a-zA-Z]+)','mail')
handler = HTMLRenderer()

parser = BasicTextParser(handler)
parser.parse(sys.stdin)

这个模块里面的处理思路是,遍历客户端(也就是程序执行的入口)给插进去的所有的规则和过滤器,来处理读进来的文本。

有一个细节的地方也要说一下,其实是和前面写的呼应一下,就是在遍历规则的时候通过调用condition这个东西来判断是否符合当前规则。

我觉得这个程序很像是命令行模式,有空可以复习一下该模式,以保持记忆网节点的牢固性。

最后说一下我以为的这个程序的用途:

1、用来做代码高亮分析,如果改写成js版的话,可以做一个在线代码编辑器。
2、可以用来学习,供我写博文用。

还有其他的思路,可以留下您的真知灼见。
补充一个类图,很简陋,但是应该能说明之间的关系。另外我还是建议如果看代码捋不清关系最好自己画图,自己画图才能熟悉整个结构。

python的即时标记项目练习笔记

Python 相关文章推荐
Python实现设置windows桌面壁纸代码分享
Mar 28 Python
详解Python命令行解析工具Argparse
Apr 20 Python
numpy数组拼接简单示例
Dec 15 Python
wxPython的安装图文教程(Windows)
Dec 28 Python
python判断字符串或者集合是否为空的实例
Jan 23 Python
Python实现基于socket的udp传输与接收功能详解
Nov 15 Python
python实现指定ip端口扫描方式
Dec 17 Python
PyInstaller将Python文件打包为exe后如何反编译(破解源码)以及防止反编译
Apr 15 Python
如何使用python的ctypes调用医保中心的dll动态库下载医保中心的账单
May 24 Python
使用Keras 实现查看model weights .h5 文件的内容
Jun 09 Python
Django项目如何正确配置日志(logging)
Apr 29 Python
Python中else的三种使用场景
Jun 16 Python
python脚本实现分析dns日志并对受访域名排行
Sep 18 #Python
python中的字典详细介绍
Sep 18 #Python
python中执行shell命令的几个方法小结
Sep 18 #Python
python处理PHP数组文本文件实例
Sep 18 #Python
Python threading多线程编程实例
Sep 18 #Python
Python中捕捉详细异常信息的代码示例
Sep 18 #Python
python字符串连接的N种方式总结
Sep 17 #Python
You might like
初次接触php抽象工厂模式(Elgg)
2010/03/21 PHP
PHP 文件系统详解
2012/09/13 PHP
php使HTML标签自动补全闭合函数代码
2012/10/04 PHP
详解WordPress开发中的get_post与get_posts函数使用
2016/01/04 PHP
centos7上编译安装php7以php-fpm方式连接apache
2018/11/08 PHP
Nigma vs Liquid BO3 第二场2.13
2021/03/10 DOTA
jQuery弹出层插件简化版代码下载
2008/10/16 Javascript
javascript 面向对象编程 聊聊对象的事
2009/09/17 Javascript
JS的encodeURI和java的URLDecoder.decode使用介绍
2014/05/08 Javascript
jQuery实现带动画效果的多级下拉菜单代码
2015/09/08 Javascript
深入探讨前端框架react
2015/12/09 Javascript
JS定义类的六种方式详解
2016/05/12 Javascript
JavaScript中动态向表格添加数据
2017/01/24 Javascript
浅谈vue的props,data,computed变化对组件更新的影响
2018/01/16 Javascript
浅谈webpack devtool里的7种SourceMap模式
2019/01/14 Javascript
Vue脚手架编写试卷页面功能
2020/03/17 Javascript
浅谈vue项目,访问路径#号的问题
2020/08/14 Javascript
Python中有趣在__call__函数
2015/06/21 Python
python实现数据清洗(缺失值与异常值处理)
2019/12/02 Python
python用TensorFlow做图像识别的实现
2020/04/21 Python
使用python批量修改XML文件中图像的depth值
2020/07/22 Python
美国领先的户外服装与装备用品店:Moosejaw
2016/08/25 全球购物
中国综合性网上购物商城:当当(网上卖书起家)
2016/11/16 全球购物
香港草莓网土耳其网站:Strawberrynet TR
2017/03/02 全球购物
Swisse官方海外旗舰店:澳大利亚销量领先,自然健康品牌
2017/12/15 全球购物
美国小蜜蜂Burt’s Bees德国官网:天然唇部、皮肤和身体护理产品
2020/06/14 全球购物
如何判断计算机可能已经中马
2013/03/22 面试题
XMLHttpRequest对象在IE和Firefox中创建方式有没有不同
2016/03/23 面试题
《蜗牛的奖杯》教后反思
2014/04/24 职场文书
2014国庆65周年领导讲话稿(3篇)
2014/09/21 职场文书
四风问题个人对照检查剖析材料
2014/09/27 职场文书
中国世界遗产导游词
2015/02/13 职场文书
预备党员个人总结
2015/02/14 职场文书
入党转正申请书范文
2019/05/20 职场文书
详解TypeScript中的类型保护
2021/04/29 Javascript
uniapp 微信小程序 自定义tabBar 导航
2022/04/22 Javascript