Python正则表达式匹配HTML页面编码


Posted in Python onApril 08, 2015

html页面一般都会指定一个编码,如何获取到是处理html页面的第一步,因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个:

import re

a = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",
   '<meta http-equiv=Content-Type content="text/html;charset=gb2312">',
   '<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="content-type" content="text/html; charset=utf-8" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'
   ]



b = "<meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']?"


B = re.compile(b, re.IGNORECASE)


for ax in a:
  r1 = B.search(ax)

  if r1:
    print r1.group()
    print r1.group(1), len(r1.group())
  else:
    print 'not match'
Python 相关文章推荐
Python函数参数类型*、**的区别
Apr 11 Python
Python制作简易注册登录系统
Dec 15 Python
Python自动化开发学习之三级菜单制作
Jul 14 Python
python如何把嵌套列表转变成普通列表
Mar 20 Python
python实现朴素贝叶斯分类器
Mar 28 Python
CentOS 7 安装python3.7.1的方法及注意事项
Nov 01 Python
Python 通过调用接口获取公交信息的实例
Dec 17 Python
Python设计模式之策略模式实例详解
Jan 21 Python
Python将列表中的元素转化为数字并排序的示例
Dec 25 Python
Python3监控疫情的完整代码
Feb 20 Python
keras 获取某层的输入/输出 tensor 尺寸操作
Jun 10 Python
总结三种用 Python 作为小程序后端的方式
May 02 Python
在Python中关于中文编码问题的处理建议
Apr 08 #Python
Python脚本实现格式化css文件
Apr 08 #Python
Python实现获取操作系统版本信息方法
Apr 08 #Python
Python中实现对Timestamp和Datetime及UTC时间之间的转换
Apr 08 #Python
python模块之StringIO使用示例
Apr 08 #Python
Python StringIO模块实现在内存缓冲区中读写数据
Apr 08 #Python
Python实现的简单文件传输服务器和客户端
Apr 08 #Python
You might like
做一个有下拉功能的留言版
2006/10/09 PHP
PHP+ajax 无刷新删除数据
2010/02/20 PHP
浅析使用Turck-mmcache编译来加速、优化PHP代码
2013/06/20 PHP
浅析php中三个等号(===)和两个等号(==)的区别
2013/08/06 PHP
ThinkPHP模版引擎之变量输出详解
2014/12/05 PHP
浅谈php的优缺点
2015/07/14 PHP
如何把php5.3版本升级到php5.4或者php5.5
2015/07/31 PHP
在php7中MongoDB实现模糊查询的方法详解
2017/05/03 PHP
PHP中Static(静态)关键字功能与用法实例分析
2019/04/05 PHP
编写针对IE的JS代码两种编写方法
2013/01/30 Javascript
jQuery获取注册信息并提示实现代码
2013/04/21 Javascript
js阻止冒泡及jquery阻止事件冒泡示例介绍
2013/11/19 Javascript
JavaScript避免内存泄露及内存管理技巧
2014/09/05 Javascript
javascript中callee与caller的区别分析
2015/04/20 Javascript
javascript中call apply 与 bind方法详解
2016/03/10 Javascript
解决在vue+webpack开发中出现两个或多个菜单公用一个组件问题
2017/11/28 Javascript
浅谈Vue数据绑定的原理
2018/01/08 Javascript
vue中使用iview自定义验证关键词输入框问题及解决方法
2018/03/26 Javascript
Python开发编码规范
2006/09/08 Python
django model去掉unique_together报错的解决方案
2016/10/18 Python
windows下python安装paramiko模块和pycrypto模块(简单三步)
2017/07/06 Python
Python使用三种方法实现PCA算法
2017/12/12 Python
python实现csv格式文件转为asc格式文件的方法
2018/03/23 Python
Python实现报警信息实时发送至邮箱功能(实例代码)
2019/11/11 Python
python函数局部变量、全局变量、递归知识点总结
2019/11/15 Python
详解KMP算法以及python如何实现
2020/09/18 Python
html5写一个BUI折叠菜单插件的实现方法
2019/09/11 HTML / CSS
介绍一下HDLC(High-Level Data Link Control)高层数据链路协议
2012/01/21 面试题
优秀毕业生求职推荐信范文
2013/11/21 职场文书
英语三分钟演讲稿
2014/08/19 职场文书
先进工作者个人总结
2015/02/15 职场文书
就业推荐表自我评价范文
2015/03/02 职场文书
纪检监察立案决定书
2015/06/24 职场文书
简历自我评价范文
2019/04/24 职场文书
详解Golang如何优雅的终止一个服务
2022/03/21 Golang
Python实现信息管理系统
2022/06/05 Python