Python正则表达式匹配HTML页面编码


Posted in Python onApril 08, 2015

html页面一般都会指定一个编码,如何获取到是处理html页面的第一步,因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个:

import re

a = ["<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />",
   '<meta http-equiv=Content-Type content="text/html;charset=gb2312">',
   '<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="content-type" content="text/html; charset=utf-8" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />',
   '<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />'
   ]



b = "<meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']?"


B = re.compile(b, re.IGNORECASE)


for ax in a:
  r1 = B.search(ax)

  if r1:
    print r1.group()
    print r1.group(1), len(r1.group())
  else:
    print 'not match'
Python 相关文章推荐
Python Sleep休眠函数使用简单实例
Feb 02 Python
python使用socket连接远程服务器的方法
Apr 29 Python
python实现在字符串中查找子字符串的方法
Jul 11 Python
Python中字典的基础知识归纳小结
Aug 19 Python
使用Python的Django框架结合jQuery实现AJAX购物车页面
Apr 11 Python
python的schedule定时任务模块二次封装方法
Feb 19 Python
python,Django实现的淘宝客登录功能示例
Jun 12 Python
python模块导入的方法
Oct 24 Python
Python(PyS60)实现简单语音整点报时
Nov 18 Python
解决pyshp UnicodeDecodeError的问题
Dec 06 Python
pygame实现弹球游戏
Apr 14 Python
python 制作磁力搜索工具
Mar 04 Python
在Python中关于中文编码问题的处理建议
Apr 08 #Python
Python脚本实现格式化css文件
Apr 08 #Python
Python实现获取操作系统版本信息方法
Apr 08 #Python
Python中实现对Timestamp和Datetime及UTC时间之间的转换
Apr 08 #Python
python模块之StringIO使用示例
Apr 08 #Python
Python StringIO模块实现在内存缓冲区中读写数据
Apr 08 #Python
Python实现的简单文件传输服务器和客户端
Apr 08 #Python
You might like
PHP浮点数精度问题汇总
2015/05/13 PHP
利用PHP命令行模式采集股票趋势信息
2016/08/09 PHP
解放web程序员的输入验证
2006/10/06 Javascript
谷歌浏览器 insertCell与appendChild的区别
2009/02/12 Javascript
jQuery 行级解析读取XML文件(附源码)
2009/10/12 Javascript
10个基于jQuery或JavaScript的WYSIWYG 编辑器整理
2010/05/06 Javascript
JavaScript实现节点的删除与序号重建实例
2015/08/05 Javascript
弹出遮罩层后禁止滚动效果【实现代码】
2016/04/29 Javascript
详解Vue 实例中的生命周期钩子
2017/03/21 Javascript
JavaScript实现求最大公共子串的方法
2018/02/03 Javascript
node.js博客项目开发手记
2018/03/16 Javascript
使用vue根据状态添加列表数据和删除列表数据的实例
2018/09/29 Javascript
动态内存分配导致影响Javascript性能的问题
2018/12/18 Javascript
Electron-vue开发的客户端支付收款工具的实现
2019/05/24 Javascript
JS回调函数简单易懂的入门实例分析
2019/09/29 Javascript
angular8.5集成TinyMce5的使用和详细配置(推荐)
2020/11/16 Javascript
[03:48]2014DOTA2 TI专访71DK夺冠不靠小组赛高排名
2014/07/11 DOTA
Python使用新浪微博API发送微博的例子
2014/04/10 Python
Python实现的彩票机选器实例
2015/06/17 Python
Django框架中方法的访问和查找
2015/07/15 Python
Php多进程实现代码
2018/05/07 Python
Django中Middleware中的函数详解
2019/07/18 Python
keras中的backend.clip用法
2020/05/22 Python
用python给csv里的数据排序的具体代码
2020/07/17 Python
萌新HTML5 入门指南(二)
2020/11/09 HTML / CSS
安德玛菲律宾官网:Under Armour菲律宾
2020/07/28 全球购物
我的大学生活职业生涯规划
2014/01/02 职场文书
教师节商场活动方案
2014/02/13 职场文书
爱心活动计划书
2014/04/26 职场文书
校庆口号
2014/06/20 职场文书
实习生工作证明范本
2014/09/14 职场文书
高中运动会广播稿
2014/09/16 职场文书
jdbc使用PreparedStatement批量插入数据的方法
2021/04/27 MySQL
Python中for后接else的语法使用
2021/05/18 Python
mysql定时自动备份数据库的方法步骤
2021/07/07 MySQL
Python操作CSV格式文件的方法大全
2021/07/15 Python