python处理html转义字符的方法详解


Posted in Python onJuly 01, 2016

本文实例讲述了python处理html转义字符的方法。分享给大家供大家参考,具体如下:

最近在用Python处理网页数据时,经常遇到一些html转义字符(也叫html字符实体),例如<> 等。字符实体一般是为了表示网页中的预留字符,比如>用>表示,防止被浏览器认为是标签,具体参考w3school的HTML 字符实体。虽然很有用,但是它们会极度影响对于网页数据的解析。为了处理这些转义字符,有如下解决方案:

1、使用HTMLParser处理

import HTMLParser
html_cont = " asdfg>123<"
html_parser = HTMLParser.HTMLParser()
new_cont = html_parser.unescape(html_cont)
print new_cont #new_cont = " asdfg>123<"

转换回去(只是空格转不回去了):

import cgi
new_cont = cgi.escape(new_cont)
print new_cont #new_cont = " asdfg>123<"

2、直接挨个替换

html_cont = " asdfg>123<"
new_cont = new_cont.replace(' ', ' ')
print new_cont #new_cont = " asdfg>123<"
new_cont = new_cont.replace('>', '>')
print new_cont #new_cont = " asdfg>123<"
new_cont = new_cont.replace('<', '<')
print new_cont #new_cont = " asdfg>123<"

不知道还有没有更好的办法。

另外stackoverflow上给出了在xml中处理转义字符的解答:python - What's the best way to handle  -like entities in XML documents with lxml? - Stack Overflow。

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
使用Python构建Hopfield网络的教程
Apr 14 Python
深入理解Python单元测试unittest的使用示例
Nov 18 Python
python psutil库安装教程
Mar 19 Python
解决python matplotlib imshow无法显示的问题
May 24 Python
Numpy中的mask的使用
Jul 21 Python
如何使用Python发送HTML格式的邮件
Feb 11 Python
Python3标准库之functools管理函数的工具详解
Feb 27 Python
jupyter notebook 重装教程
Apr 16 Python
面向新手解析python Beautiful Soup基本用法
Jul 11 Python
Python selenium爬取微信公众号文章代码详解
Aug 12 Python
Python打包为exe详细教程
May 18 Python
教你利用Selenium+python自动化来解决pip使用异常
May 20 Python
python简单读取大文件的方法
Jul 01 #Python
python编码总结(编码类型、格式、转码)
Jul 01 #Python
Python编码类型转换方法详解
Jul 01 #Python
Python面向对象编程中关于类和方法的学习笔记
Jun 30 #Python
Python中的time模块与datetime模块用法总结
Jun 30 #Python
详解Swift中属性的声明与作用
Jun 30 #Python
为Python的Tornado框架配置使用Jinja2模板引擎的方法
Jun 30 #Python
You might like
PHP 编写大型网站问题集
2010/05/07 PHP
php实现memcache缓存示例讲解
2013/12/04 PHP
php解析url的三个示例
2014/01/20 PHP
ThinkPHP模板判断输出Present标签用法详解
2014/06/30 PHP
浅谈PHP命令执行php文件需要注意的问题
2016/12/16 PHP
Laravel中Facade的加载过程与原理详解
2017/09/22 PHP
用CSS+JS实现的进度条效果效果
2007/06/05 Javascript
js 自动播放的实例代码
2013/11/19 Javascript
jquery获取URL中参数解决中文乱码问题的两种方法
2013/12/18 Javascript
ie8下修改input的type属性报错的解决方法
2014/09/16 Javascript
浅谈被jQuery抛弃的函数及替代函数
2015/05/03 Javascript
jQuery实现html表格动态添加新行的方法
2015/05/28 Javascript
js实现类似菜单风格的TAB选项卡效果代码
2015/08/28 Javascript
JS实现仿QQ面板的手风琴效果折叠菜单代码
2015/09/11 Javascript
AngularJs验证重复密码的方法(两种)
2016/11/25 Javascript
详解Node项目部署到云服务器上
2017/07/12 Javascript
微信小程序之发送短信倒计时功能
2017/08/30 Javascript
对angularJs中$sce服务安全显示html文本的实例
2018/09/30 Javascript
Vue+Element-UI实现上传图片并压缩
2019/11/26 Javascript
es6中class类静态方法,静态属性,实例属性,实例方法的理解与应用分析
2020/02/15 Javascript
Python使用ntplib库同步校准当地时间的方法
2016/07/02 Python
小小聊天室Python代码实现
2016/08/17 Python
浅谈python 读excel数值为浮点型的问题
2018/12/25 Python
Python常用爬虫代码总结方便查询
2019/02/25 Python
Python3中的bytes和str类型详解
2019/05/02 Python
python之pexpect实现自动交互的例子
2019/07/25 Python
Django在admin后台集成TinyMCE富文本编辑器的例子
2019/08/09 Python
Python 函数list&amp;read&amp;seek详解
2019/08/28 Python
HTML5 Canvas实现360度全景图的示例代码
2018/01/29 HTML / CSS
html5的pushstate以及监听浏览器返回事件的实现
2020/08/11 HTML / CSS
Hotels.com爱尔兰:全球酒店预订
2017/02/24 全球购物
某公司面试题
2012/03/05 面试题
咨询公司各岗位职责
2013/12/02 职场文书
培训演讲稿范文
2014/01/12 职场文书
2015年度党员自我评价范文
2015/03/03 职场文书
25句企业管理语录:助你迅速打开思路,句句经典!
2020/01/14 职场文书