python爬虫常用的模块分析


Posted in Python onAugust 29, 2014

本文对Python爬虫常用的模块做了较为深入的分析,并以实例加以深入说明。分享给大家供大家参考之用。具体分析如下:

creepy模块

某台湾大神开发的,功能简单,能够自动抓取某个网站的所有内容,当然你也可以设定哪些url需要抓。

地址:https://pypi.python.org/pypi/creepy

功能接口:

set_content_type_filter:
设定抓取的content-type(header中的contenttype)。包括text/html

add_url_filter:
过滤url,传入的可以是正则表达式

set_follow_mode:
设定递归模式,F_ANY:该页面上所有链接都会抓取。 F_SAME_DOMAIN和F_SAME_HOST类似。即同一个域名的都会抓取。F_SAME_PATH:同一路径的抓取。例如bag.vancl.com/l1/d3/1.jpg path为l1/d3/1.jpg,则path为l1/d3/*的都会抓取。这里可以根据需要增加自己的递归模式

set_concurrency_level:
设定线程最大数

process_document:
一般需要重写,处理网页内容,提取自己需要的内容。

selenium
可视化界面,抓取自动化,api使用超简单,完全像是自己在操作浏览器。

官方网站:http://www.seleniumhq.org/
python官方网站
http://pypi.python.org/pypi/selenium
webdriver api(很好用,建议多了解一下)
http://www.seleniumhq.org/docs/03_webdriver.jsp

以下是一个抓取凡客网站的例子:

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

browser = webdriver.Firefox()
browser.get('http://bag.vancl.com/28145-28167-a18568_18571-b1-n3-s1.html#ref=hp-hp-hot-8_1_1-v:n')
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
time.sleep(1)
print elem.get_attribute("href")
elem.click()

time.sleep(1)
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
print elem.get_attribute("href")
elem.click()

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
对于Python装饰器使用的一些建议
Jun 03 Python
python开发中module模块用法实例分析
Nov 12 Python
python爬虫_自动获取seebug的poc实例
Aug 05 Python
python函数参数(必须参数、可变参数、关键字参数)
Aug 16 Python
pymysql 开启调试模式的实现
Sep 24 Python
Python 词典(Dict) 加载与保存示例
Dec 06 Python
Python中six模块基础用法
Dec 08 Python
将python依赖包打包成window下可执行文件bat方式
Dec 26 Python
Python基于opencv的简单图像轮廓形状识别(全网最简单最少代码)
Jan 28 Python
Python基础之元编程知识总结
May 23 Python
python画条形图的具体代码
Apr 20 Python
Python中使用tkFileDialog实现文件选择、保存和路径选择
May 20 Python
python基础教程之循环介绍
Aug 29 #Python
Python中optionParser模块的使用方法实例教程
Aug 29 #Python
python基础教程之缩进介绍
Aug 29 #Python
python基础教程之常用运算符
Aug 29 #Python
python基础教程之序列详解
Aug 29 #Python
Python获取电脑硬件信息及状态的实现方法
Aug 29 #Python
python基础教程之基本数据类型和变量声明介绍
Aug 29 #Python
You might like
PHP 的几个配置文件函数
2006/12/21 PHP
php ZipArchive压缩函数详解实例
2013/11/06 PHP
基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正则匹配)
2014/01/31 PHP
PHP获取数组长度或某个值出现次数的方法
2015/02/11 PHP
CI(CodeIgniter)模型用法实例分析
2016/01/20 PHP
Laravel中Facade的加载过程与原理详解
2017/09/22 PHP
PHP 实现重载
2021/03/09 PHP
javascript 函数速查表
2010/02/07 Javascript
javascript 节点排序 2
2011/01/31 Javascript
利用百度地图JSAPI生成h7n9禽流感分布图实现代码
2013/04/15 Javascript
javascript通过navigator.userAgent识别各种浏览器
2013/10/25 Javascript
jQuery中removeData()方法用法实例
2014/12/27 Javascript
基于jquery ui的alert,confirm方案(支持换肤)
2015/04/03 Javascript
js兼容火狐显示上传图片预览效果的方法
2015/05/21 Javascript
谈谈基于iframe、FormData、FileReader三种无刷新上传文件的方法
2015/12/03 Javascript
Element-ui之ElScrollBar组件滚动条的使用方法
2018/09/14 Javascript
vue 2.8.2版本配置刚进入时候的默认页面方法
2018/09/21 Javascript
vue随机验证码组件的封装实现
2020/02/19 Javascript
[00:32]2018DOTA2亚洲邀请赛Newbee出场
2018/04/03 DOTA
Python中的ceil()方法使用教程
2015/05/14 Python
Python聚类算法之凝聚层次聚类实例分析
2015/11/20 Python
python3实现抓取网页资源的 N 种方法
2017/05/02 Python
用python的requests第三方模块抓取王者荣耀所有英雄的皮肤实例
2017/12/14 Python
无法使用pip命令安装python第三方库的原因及解决方法
2018/06/12 Python
python求最大值,不使用内置函数的实现方法
2019/07/09 Python
Django 实现xadmin后台菜单改为中文
2019/11/15 Python
Python性能分析工具py-spy原理用法解析
2020/07/27 Python
详解Python模块化编程与装饰器
2021/01/16 Python
美国礼品卡商城: Gift Card Mall
2017/08/25 全球购物
存储过程和sql语句的优缺点
2014/07/02 面试题
销售自荐信
2013/10/22 职场文书
《雷鸣电闪波尔卡》教学反思
2014/02/23 职场文书
《彩色世界》教学反思
2014/04/12 职场文书
环保守法证明
2015/06/24 职场文书
2016道德模范先进事迹材料
2016/02/26 职场文书
Python IO文件管理的具体使用
2022/03/20 Python