Python正则表达式匹配HTML页面编码


Posted in Python onApril 08, 2015

html页面一般都会指定一个编码,如何获取到是处理html页面的第一步,因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个:

import re

a = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",
   '<meta http-equiv=Content-Type content="text/html;charset=gb2312">',
   '<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="content-type" content="text/html; charset=utf-8" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'
   ]



b = "<meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']?"


B = re.compile(b, re.IGNORECASE)


for ax in a:
  r1 = B.search(ax)

  if r1:
    print r1.group()
    print r1.group(1), len(r1.group())
  else:
    print 'not match'
Python 相关文章推荐
Python修改Excel数据的实例代码
Nov 01 Python
python批量提交沙箱问题实例
Oct 08 Python
Python的Flask框架标配模板引擎Jinja2的使用教程
Jul 12 Python
Python正则简单实例分析
Mar 21 Python
Pycharm配置远程调试的方法步骤
Dec 17 Python
python实现三维拟合的方法
Dec 29 Python
python enumerate内置函数用法总结
Jan 07 Python
python 按钮点击关闭窗口的实现
Mar 04 Python
如何配置关联Python 解释器 Anaconda的教程(图解)
Apr 30 Python
Numpy(Pandas)删除全为零的列的方法
Sep 11 Python
Pytest测试框架基本使用方法详解
Nov 25 Python
pandas中关于apply+lambda的应用
Feb 28 Python
在Python中关于中文编码问题的处理建议
Apr 08 #Python
Python脚本实现格式化css文件
Apr 08 #Python
Python实现获取操作系统版本信息方法
Apr 08 #Python
Python中实现对Timestamp和Datetime及UTC时间之间的转换
Apr 08 #Python
python模块之StringIO使用示例
Apr 08 #Python
Python StringIO模块实现在内存缓冲区中读写数据
Apr 08 #Python
Python实现的简单文件传输服务器和客户端
Apr 08 #Python
You might like
谈谈PHP语法(4)
2006/10/09 PHP
vBulletin HACK----显示话题大小和打开新窗口于论坛索引页
2006/10/09 PHP
分享php邮件管理器源码
2016/01/06 PHP
PHP用户注册邮件激活账户的实现代码
2017/05/31 PHP
js编码、解码函数介绍及其使用示例
2013/09/05 Javascript
搭建pomelo 开发环境
2014/06/24 Javascript
使用jQuery实现input数值增量和减量的方法
2015/01/24 Javascript
JavaScript tab选项卡插件实例代码
2016/02/23 Javascript
jquery操作checkbox的常用方法总结【附测试源码下载】
2019/06/10 jQuery
javascript实现留言板功能
2020/02/08 Javascript
vue+elementui实现点击table中的单元格触发事件--弹框
2020/07/18 Javascript
手机浏览器唤起微信分享(JS)
2020/10/11 Javascript
[00:50]深扒TI7聊天轮盘语音出处6
2017/05/11 DOTA
Python实现爬虫设置代理IP和伪装成浏览器的方法分享
2018/05/07 Python
Python tkinter的grid布局及Text动态显示方法
2018/10/11 Python
python高级特性和高阶函数及使用详解
2018/10/17 Python
Python3.5 处理文本txt,删除不需要的行方法
2018/12/10 Python
使用Django2快速开发Web项目的详细步骤
2019/01/06 Python
python变量赋值方法(可变与不可变)
2019/01/12 Python
python 视频逐帧保存为图片的完整实例
2019/12/10 Python
python GUI库图形界面开发之PyQt5布局控件QGridLayout详细使用方法与实例
2020/03/06 Python
解决pyqt5异常退出无提示信息的问题
2020/04/08 Python
Python爬虫JSON及JSONPath运行原理详解
2020/06/04 Python
通过实例解析python and和or使用方法
2020/11/14 Python
Hawes & Curtis澳大利亚官网:英国经典服饰品牌
2018/10/29 全球购物
家得宝墨西哥官网:The Home Depot墨西哥
2019/11/18 全球购物
毕业生自荐信
2013/12/14 职场文书
策划总监岗位职责
2014/02/16 职场文书
大学生作弊检讨书
2014/02/19 职场文书
优秀大学生职业生涯规划书
2014/02/27 职场文书
实践单位评语
2014/04/26 职场文书
天地会口号
2014/06/17 职场文书
班子成员四风问题自我剖析材料
2014/09/29 职场文书
房产协议书范本
2014/10/18 职场文书
2015年留守儿童工作总结
2015/05/22 职场文书
Mysql调整优化之四种分区方式以及组合分区
2022/04/13 MySQL