Python使用Mechanize模块编写爬虫的要点解析


Posted in Python onMarch 31, 2016

 mechanize是对urllib2的部分功能的替换,能够更好的模拟浏览器行为,在web访问控制方面做得更全面。结合beautifulsoup和re模块,可以有效的解析web页面,我比较喜欢这种方法。
    下面主要总结了使用mechanize模拟浏览器的行为和几个例子(谷歌搜索,百度搜索和人人网登录等)
1.初始化并建立一个浏览器对象
    如果没有mechanize需要easy_install安装,以下代码建立浏览器对象并作了一些初始化设置,实际使用过程可以按需开关。其实只用默认的设置也可以完成基本任务。

#!/usr/bin/env python
import sys,mechanize

#Browser
br = mechanize.Browser()

#options
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)

#Follows refresh 0 but not hangs on refresh > 0
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)

#debugging?
br.set_debug_http(True)
br.set_debug_redirects(True)
br.set_debug_responses(True)

#User-Agent (this is cheating, ok?)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

2.模拟浏览器行为
    浏览器对象建立并初始化完毕之后即可使用了,下面给出几个例子(代码承接以上部分)
获取web网页:
    分行打印可以逐个查看详细信息,就不赘述

r = br.open(sys.argv[1])
html = r.read()
print html
print br.response().read()
print br.title()
print r.info()

模拟谷歌和百度查询
    打印和选择forms,然后填写相应键值,通过post提交完成操作

for f in br.forms():
 print f

br.select_form(nr=0)

    谷歌查询football

br.form['q'] = 'football'
br.submit()
print br.response().read()

    百度查询football

br.form['wd'] = 'football'
br.submit()
print br.response().read()

  
    相应键值名,可以通过打印查出

回退(Back)
    非常简单的操作,打印url即可验证是否回退

# Back
br.back()
print br.geturl()

3.http基本认证

br.add_password('http://xxx.com', 'username', 'password')
br.open('http://xxx.com')

4.form认证
    以登陆人人网为例,打印forms可以查出用户名和密码键信息

br.select_form(nr = 0)
br['email'] = username
br['password'] = password
resp = self.br.submit()

5.cookie支持
    通过导入cookielib模块,并设置浏览器cookie,可以在需要认证的网络行为之后不用重复认证登陆。通过保存session cookie即可重新访问,Cookie Jar完成了该功能。

#!/usr/bin/env python
import mechanize, cookielib

br = mechanize.Browser()
cj = cookielib.LWPCookieJar()
br.set_cookiejar()

6.proxy设置
设置http代理

#Proxy
br.set_proxies({"http":"proxy.com:8888"})
br.add_proxy_password("username", "password")

#Proxy and usrer/password
br.set_proxies({"http":"username:password@proxy.com:8888"})

7.关于内存过高问题

在用mechanize写了一个爬虫脚本,想要去某网站爬取大概30万张图片。
 
整个过程是:
1、获取目标页面地址
2、取得目标地址前几页的所有图片url
3、对这些url进行下载,并把索引数据保存到mysql数据库。

这个脚本大概每秒钟完成一张图片的下载(主要是网络只有200K/S左右,是瓶颈)
当图片下载到大约15000张左右的时候,发现越来越慢,最后干脆停下了。
用ps aux查看,发现进程sleep了,感觉很奇怪。
free看一下,内存竟然只剩下100M了(系统总内存4GB)
在网上瞎逛了一下,发现原来mechanize默认会保存模拟过的操作历史,导致占用的内存越来越大:
http://stackoverflow.com/questions/2393299/how-do-i-disable-history-in-python-mechanize-module
 
为了方便,大约翻译一下:
mechanize初始化Browser()的时候,如果你不给他传一个history对象作为参数,Browser()就会按照默认的方式(允许保存操作历史)来进行初始化,你可以随便传个什么history给它即可,如自定义一个NoHistory对象:
 

class NoHistory(object): 
 def add(self, *a, **k): pass 
 def clear(self): pass 
 
b = mechanize.Browser(history=NoHistory())
Python 相关文章推荐
Python探索之自定义实现线程池
Oct 27 Python
python爬虫之线程池和进程池功能与用法详解
Aug 02 Python
Python实现登陆文件验证方法
Oct 06 Python
python3使用QQ邮箱发送邮件
May 20 Python
Flask配置Cors跨域的实现
Jul 12 Python
如何用Python来搭建一个简单的推荐系统
Aug 07 Python
使用matplotlib绘制图例标签中带有公式的图
Dec 13 Python
python读取Kafka实例
Dec 23 Python
基于pygame实现童年掌机打砖块游戏
Feb 25 Python
Python基础之列表常见操作经典实例详解
Feb 26 Python
解决IDEA 的 plugins 搜不到任何的插件问题
May 04 Python
python中zip()函数遍历多个列表方法
Feb 18 Python
Python语言实现获取主机名根据端口杀死进程
Mar 31 #Python
Linux中Python 环境软件包安装步骤
Mar 31 #Python
Python内置的HTTP协议服务器SimpleHTTPServer使用指南
Mar 30 #Python
横向对比分析Python解析XML的四种方式
Mar 30 #Python
python简单实现刷新智联简历
Mar 30 #Python
详解Python迭代和迭代器
Mar 28 #Python
Python读大数据txt
Mar 28 #Python
You might like
控制PHP的输出:缓存并压缩动态页面
2013/06/11 PHP
php验证身份证号码正确性的函数
2016/07/20 PHP
在Mac OS下搭建LNMP开发环境的步骤详解
2017/03/10 PHP
PHP简单实现防止SQL注入的方法
2018/03/13 PHP
JQuery 绑定select标签的onchange事件,弹出选择的值,并实现跳转、传参
2011/01/06 Javascript
node.js实现端口转发
2016/04/14 Javascript
vue实现简单实时汇率计算功能
2017/01/15 Javascript
基于JavaScript实现图片剪切效果
2017/03/07 Javascript
Angular 4依赖注入学习教程之ValueProvider的使用(七)
2017/06/04 Javascript
javascript 中select框触发事件过程的分析
2017/08/01 Javascript
详解Vue文档中几个易忽视部分的剖析
2018/03/24 Javascript
[原创]jquery判断元素内容是否为空的方法
2018/05/04 jQuery
Python计算程序运行时间的方法
2014/12/13 Python
Python实现遍历数据库并获取key的值
2015/05/17 Python
python日期时间转为字符串或者格式化输出的实例
2018/05/29 Python
opencv实现图片模糊和锐化操作
2018/11/19 Python
Python3.5运算符操作实例详解
2019/04/25 Python
python 进程的几种创建方式详解
2019/08/29 Python
python模拟点击网页按钮实现方法
2020/02/25 Python
如何在django中实现分页功能
2020/04/22 Python
PyQt5实现仿QQ贴边隐藏功能的实例代码
2020/05/24 Python
python开发前景如何
2020/06/11 Python
13个Pandas实用技巧,助你提高开发效率
2020/08/19 Python
HTML5 Canvas实现平移/放缩/旋转deom示例(附截图)
2013/07/04 HTML / CSS
前端实现打印图像功能
2019/08/27 HTML / CSS
Mistine官方海外旗舰店:泰国国民彩妆品牌
2016/12/28 全球购物
欧洲顶级的童装奢侈品购物网站:Bambini Fashion(面向全球)
2018/04/24 全球购物
罗马尼亚在线杂货店:Pilulka.ro
2019/09/28 全球购物
自荐信格式技巧有哪些呢
2013/11/19 职场文书
酒店经理职责
2014/01/30 职场文书
网站美工岗位职责
2014/04/02 职场文书
2014教育局对照检查材料思想汇报
2014/09/23 职场文书
面试通知单大全
2015/04/20 职场文书
2015年财政所工作总结
2015/04/25 职场文书
家长对孩子的寒假评语
2015/10/09 职场文书
python 使用tkinter与messagebox写界面和弹窗
2022/03/20 Python