Python使用Mechanize模块编写爬虫的要点解析


Posted in Python onMarch 31, 2016

 mechanize是对urllib2的部分功能的替换,能够更好的模拟浏览器行为,在web访问控制方面做得更全面。结合beautifulsoup和re模块,可以有效的解析web页面,我比较喜欢这种方法。
    下面主要总结了使用mechanize模拟浏览器的行为和几个例子(谷歌搜索,百度搜索和人人网登录等)
1.初始化并建立一个浏览器对象
    如果没有mechanize需要easy_install安装,以下代码建立浏览器对象并作了一些初始化设置,实际使用过程可以按需开关。其实只用默认的设置也可以完成基本任务。

#!/usr/bin/env python
import sys,mechanize

#Browser
br = mechanize.Browser()

#options
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)

#Follows refresh 0 but not hangs on refresh > 0
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)

#debugging?
br.set_debug_http(True)
br.set_debug_redirects(True)
br.set_debug_responses(True)

#User-Agent (this is cheating, ok?)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

2.模拟浏览器行为
    浏览器对象建立并初始化完毕之后即可使用了,下面给出几个例子(代码承接以上部分)
获取web网页:
    分行打印可以逐个查看详细信息,就不赘述

r = br.open(sys.argv[1])
html = r.read()
print html
print br.response().read()
print br.title()
print r.info()

模拟谷歌和百度查询
    打印和选择forms,然后填写相应键值,通过post提交完成操作

for f in br.forms():
 print f

br.select_form(nr=0)

    谷歌查询football

br.form['q'] = 'football'
br.submit()
print br.response().read()

    百度查询football

br.form['wd'] = 'football'
br.submit()
print br.response().read()

  
    相应键值名,可以通过打印查出

回退(Back)
    非常简单的操作,打印url即可验证是否回退

# Back
br.back()
print br.geturl()

3.http基本认证

br.add_password('http://xxx.com', 'username', 'password')
br.open('http://xxx.com')

4.form认证
    以登陆人人网为例,打印forms可以查出用户名和密码键信息

br.select_form(nr = 0)
br['email'] = username
br['password'] = password
resp = self.br.submit()

5.cookie支持
    通过导入cookielib模块,并设置浏览器cookie,可以在需要认证的网络行为之后不用重复认证登陆。通过保存session cookie即可重新访问,Cookie Jar完成了该功能。

#!/usr/bin/env python
import mechanize, cookielib

br = mechanize.Browser()
cj = cookielib.LWPCookieJar()
br.set_cookiejar()

6.proxy设置
设置http代理

#Proxy
br.set_proxies({"http":"proxy.com:8888"})
br.add_proxy_password("username", "password")

#Proxy and usrer/password
br.set_proxies({"http":"username:password@proxy.com:8888"})

7.关于内存过高问题

在用mechanize写了一个爬虫脚本,想要去某网站爬取大概30万张图片。
 
整个过程是:
1、获取目标页面地址
2、取得目标地址前几页的所有图片url
3、对这些url进行下载,并把索引数据保存到mysql数据库。

这个脚本大概每秒钟完成一张图片的下载(主要是网络只有200K/S左右,是瓶颈)
当图片下载到大约15000张左右的时候,发现越来越慢,最后干脆停下了。
用ps aux查看,发现进程sleep了,感觉很奇怪。
free看一下,内存竟然只剩下100M了(系统总内存4GB)
在网上瞎逛了一下,发现原来mechanize默认会保存模拟过的操作历史,导致占用的内存越来越大:
http://stackoverflow.com/questions/2393299/how-do-i-disable-history-in-python-mechanize-module
 
为了方便,大约翻译一下:
mechanize初始化Browser()的时候,如果你不给他传一个history对象作为参数,Browser()就会按照默认的方式(允许保存操作历史)来进行初始化,你可以随便传个什么history给它即可,如自定义一个NoHistory对象:
 

class NoHistory(object): 
 def add(self, *a, **k): pass 
 def clear(self): pass 
 
b = mechanize.Browser(history=NoHistory())
Python 相关文章推荐
复习Python中的字符串知识点
Apr 14 Python
详解Python中的各种函数的使用
May 24 Python
全面理解Python中self的用法
Jun 04 Python
python魔法方法-自定义序列详解
Jul 21 Python
Python编程实现从字典中提取子集的方法分析
Feb 09 Python
教你使用python画一朵花送女朋友
Mar 29 Python
基于scrapy的redis安装和配置方法
Jun 13 Python
在unittest中使用 logging 模块记录测试数据的方法
Nov 30 Python
Python字符串内置函数功能与用法总结
Apr 16 Python
django基于restframework的CBV封装详解
Aug 08 Python
python每天定时运行某程序代码
Aug 16 Python
tensorflow如何继续训练之前保存的模型实例
Jan 21 Python
Python语言实现获取主机名根据端口杀死进程
Mar 31 #Python
Linux中Python 环境软件包安装步骤
Mar 31 #Python
Python内置的HTTP协议服务器SimpleHTTPServer使用指南
Mar 30 #Python
横向对比分析Python解析XML的四种方式
Mar 30 #Python
python简单实现刷新智联简历
Mar 30 #Python
详解Python迭代和迭代器
Mar 28 #Python
Python读大数据txt
Mar 28 #Python
You might like
ThinkPHP分组下自定义标签库实例
2014/11/01 PHP
PHP汉字转换拼音的函数代码
2015/12/30 PHP
php表单处理操作
2017/11/16 PHP
利用PHP如何统计Nginx日志的User Agent数据
2019/03/06 PHP
JS 日期验证正则附asp日期格式化函数
2009/09/11 Javascript
IE的有条件注释判定IE版本详解(附实例代码)
2012/01/04 Javascript
轻松实现js图片预览功能
2016/01/18 Javascript
JavaScript对象封装的简单实现方法(3种方法)
2017/01/03 Javascript
jQuery获取所有父级元素及同级元素及子元素的方法(推荐)
2018/01/21 jQuery
Angular4 反向代理Details实践
2018/05/30 Javascript
vue动态添加路由addRoutes之不能将动态路由存入缓存的解决
2019/02/19 Javascript
JS实现公告上线滚动效果
2021/01/10 Javascript
Vite和Vue CLI的优劣
2021/01/30 Vue.js
零基础写python爬虫之抓取糗事百科代码分享
2014/11/06 Python
在Python中处理字符串之ljust()方法的使用简介
2015/05/19 Python
Python 3.x 安装opencv+opencv_contrib的操作方法
2018/04/02 Python
Python之读取TXT文件的方法小结
2018/04/27 Python
对python使用telnet实现弱密码登录的方法详解
2019/01/26 Python
python爬虫 批量下载zabbix文档代码实例
2019/08/21 Python
python使用 request 发送表单数据操作示例
2019/09/25 Python
python设置代理和添加镜像源的方法
2020/02/14 Python
python实现人像动漫化的示例代码
2020/05/17 Python
keras模型保存为tensorflow的二进制模型方式
2020/05/25 Python
python爬虫基础之urllib的使用
2020/12/31 Python
HTML5使用Audio标签实现歌词同步的效果
2016/03/17 HTML / CSS
html5菜单折纸效果
2014/04/22 HTML / CSS
悦木之源美国官网:Origins美国
2016/08/01 全球购物
美国最大的半成品净菜电商:Blue Apron(蓝围裙)
2018/04/27 全球购物
优秀少先队工作者事迹材料
2014/05/13 职场文书
邻里守望志愿服务活动方案
2014/08/15 职场文书
2014年纪检工作总结
2014/11/12 职场文书
悬空寺导游词
2015/02/05 职场文书
职场干货:简历中的自我评价应该这样写!
2019/05/06 职场文书
详解Java ES多节点任务的高效分发与收集实现
2021/06/30 Java/Android
Python实现位图分割的效果
2021/11/20 Python
Golang 1.18 多模块Multi-Module工作区模式的新特性
2022/04/11 Golang