python爬虫常用的模块分析


Posted in Python onAugust 29, 2014

本文对Python爬虫常用的模块做了较为深入的分析,并以实例加以深入说明。分享给大家供大家参考之用。具体分析如下:

creepy模块

某台湾大神开发的,功能简单,能够自动抓取某个网站的所有内容,当然你也可以设定哪些url需要抓。

地址:https://pypi.python.org/pypi/creepy

功能接口:

set_content_type_filter:
设定抓取的content-type(header中的contenttype)。包括text/html

add_url_filter:
过滤url,传入的可以是正则表达式

set_follow_mode:
设定递归模式,F_ANY:该页面上所有链接都会抓取。 F_SAME_DOMAIN和F_SAME_HOST类似。即同一个域名的都会抓取。F_SAME_PATH:同一路径的抓取。例如bag.vancl.com/l1/d3/1.jpg path为l1/d3/1.jpg,则path为l1/d3/*的都会抓取。这里可以根据需要增加自己的递归模式

set_concurrency_level:
设定线程最大数

process_document:
一般需要重写,处理网页内容,提取自己需要的内容。

selenium
可视化界面,抓取自动化,api使用超简单,完全像是自己在操作浏览器。

官方网站:http://www.seleniumhq.org/
python官方网站
http://pypi.python.org/pypi/selenium
webdriver api(很好用,建议多了解一下)
http://www.seleniumhq.org/docs/03_webdriver.jsp

以下是一个抓取凡客网站的例子:

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

browser = webdriver.Firefox()
browser.get('http://bag.vancl.com/28145-28167-a18568_18571-b1-n3-s1.html#ref=hp-hp-hot-8_1_1-v:n')
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
time.sleep(1)
print elem.get_attribute("href")
elem.click()

time.sleep(1)
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
print elem.get_attribute("href")
elem.click()

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
用Python实现一个简单的线程池
Apr 07 Python
python3简单实现微信爬虫
Apr 09 Python
在Python中使用HTML模版的教程
Apr 29 Python
Python使用cx_Oracle模块将oracle中数据导出到csv文件的方法
May 16 Python
简单讲解Python中的数字类型及基本的数学计算
Mar 11 Python
AI人工智能 Python实现人机对话
Nov 13 Python
tensorflow学习教程之文本分类详析
Aug 07 Python
使用python制作游戏下载进度条的代码(程序说明见注释)
Oct 24 Python
python实现将视频按帧读取到自定义目录
Dec 10 Python
python实现控制台输出彩色字体
Apr 05 Python
Python3 类型标注支持操作
Jun 02 Python
基于Python实现nc批量转tif格式
Aug 14 Python
python基础教程之循环介绍
Aug 29 #Python
Python中optionParser模块的使用方法实例教程
Aug 29 #Python
python基础教程之缩进介绍
Aug 29 #Python
python基础教程之常用运算符
Aug 29 #Python
python基础教程之序列详解
Aug 29 #Python
Python获取电脑硬件信息及状态的实现方法
Aug 29 #Python
python基础教程之基本数据类型和变量声明介绍
Aug 29 #Python
You might like
《五等分的花嫁》漫画完结!2020年10月第2期TV动画制作组换血!
2020/03/06 日漫
老机欣赏|中国60年代精品收音机
2021/03/02 无线电
php 前一天或后一天的日期
2008/06/28 PHP
Smarty Foreach 使用说明
2010/03/23 PHP
PHP延迟静态绑定的深入讲解
2018/04/02 PHP
PHP实现文件上传与下载
2020/08/28 PHP
JavaScript中的Screen屏幕对象
2008/01/16 Javascript
JS backgroundImage控制
2009/05/19 Javascript
JS实现一键回顶功能示例代码
2013/10/28 Javascript
Javascript:为input设置readOnly属性(示例讲解)
2013/12/25 Javascript
wap浏览自动跳转到wap页面的js代码
2014/05/17 Javascript
优化Node.js Web应用运行速度的10个技巧
2014/09/03 Javascript
推荐4个原生javascript常用的函数
2015/01/12 Javascript
JavaScript通过prototype给对象定义属性用法实例
2015/03/23 Javascript
基于jQuery实现以手风琴方式展开和折叠导航菜单
2016/01/28 Javascript
JavaScript的React Web库的理念剖析及基础上手指南
2016/05/10 Javascript
基于WebUploader的文件上传js插件
2016/08/19 Javascript
EasyUI折叠表格层次显示detailview详解及实例
2016/12/28 Javascript
JavaScript简单计算人的年龄示例
2017/04/15 Javascript
解决Vue编译时写在style中的路径问题
2017/09/21 Javascript
jQuery实现左右滑动的toggle方法
2018/03/03 jQuery
解决Vue开发中对话框被遮罩层挡住的问题
2018/11/26 Javascript
小程序日历控件使用方法详解
2018/12/29 Javascript
vue-router的两种模式的区别
2019/05/30 Javascript
Python面向对象程序设计中类的定义、实例化、封装及私有变量/方法详解
2019/02/28 Python
Pythony运维入门之Socket网络编程详解
2019/04/15 Python
详细介绍pandas的DataFrame的append方法使用
2019/07/31 Python
keras做CNN的训练误差loss的下降操作
2020/06/22 Python
python使用bs4爬取boss直聘静态页面
2020/10/10 Python
html2canvas生成的图片偏移不完整的解决方法
2020/05/19 HTML / CSS
实习护理工作自我评价
2013/09/25 职场文书
2015国庆节66周年演讲稿
2015/03/20 职场文书
安全教育培训制度
2015/08/06 职场文书
2016年记者节感言
2015/12/08 职场文书
房屋转让协议书(标准范本)
2016/03/21 职场文书
使用Django框架创建项目
2022/06/10 Python