编程 Python

Python爬虫框架Scrapy实例代码

Posted in Python onMarch 04, 2018

目标任务：爬取腾讯社招信息，需要爬取的内容为：职位名称，职位的详情链接，职位类别，招聘人数，工作地点，发布时间。

一、创建Scrapy项目

scrapy startproject Tencent

命令执行后，会创建一个Tencent文件夹，结构如下

二、编写item文件，根据需要爬取的内容定义爬取字段

# -*- coding: utf-8 -*-
import scrapy
class TencentItem(scrapy.Item):
  # 职位名
  positionname = scrapy.Field()
  # 详情连接
  positionlink = scrapy.Field()
  # 职位类别
  positionType = scrapy.Field()
  # 招聘人数
  peopleNum = scrapy.Field()
  # 工作地点
  workLocation = scrapy.Field()
  # 发布时间
  publishTime = scrapy.Field()

三、编写spider文件

进入Tencent目录，使用命令创建一个基础爬虫类：

# tencentPostion为爬虫名，tencent.com为爬虫作用范围
scrapy genspider tencentPostion "tencent.com"

执行命令后会在spiders文件夹中创建一个tencentPostion.py的文件，现在开始对其编写：

# -*- coding: utf-8 -*-
import scrapy
from tencent.items import TencentItem
class TencentpositionSpider(scrapy.Spider):
  """
  功能：爬取腾讯社招信息
  """
  # 爬虫名
  name = "tencentPosition"
  # 爬虫作用范围
  allowed_domains = ["tencent.com"]
  url = "http://hr.tencent.com/position.php?&start="
  offset = 0
  # 起始url
  start_urls = [url + str(offset)]
  def parse(self, response):
    for each in response.xpath("//tr[@class='even'] | //tr[@class='odd']"):
      # 初始化模型对象
      item = TencentItem()
      # 职位名称
      item['positionname'] = each.xpath("./td[1]/a/text()").extract()[0]
      # 详情连接
      item['positionlink'] = each.xpath("./td[1]/a/@href").extract()[0]
      # 职位类别
      item['positionType'] = each.xpath("./td[2]/text()").extract()[0]
      # 招聘人数
      item['peopleNum'] = each.xpath("./td[3]/text()").extract()[0]
      # 工作地点
      item['workLocation'] = each.xpath("./td[4]/text()").extract()[0]
      # 发布时间
      item['publishTime'] = each.xpath("./td[5]/text()").extract()[0]
      yield item
    if self.offset < 1680:
      self.offset += 10
    # 每次处理完一页的数据之后，重新发送下一页页面请求
    # self.offset自增10，同时拼接为新的url，并调用回调函数self.parse处理Response
    yield scrapy.Request(self.url + str(self.offset), callback = self.parse)

四、编写pipelines文件

# -*- coding: utf-8 -*-
import json
class TencentPipeline(object):
""" 
    功能：保存item数据 
  """
  def __init__(self):
    self.filename = open("tencent.json", "w")
  def process_item(self, item, spider):
    text = json.dumps(dict(item), ensure_ascii = False) + ",\n"
    self.filename.write(text.encode("utf-8"))
    return item
  def close_spider(self, spider):
    self.filename.close()

五、settings文件设置（主要设置内容）

# 设置请求头部，添加url
DEFAULT_REQUEST_HEADERS = {
  "User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;",
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'
}
# 设置item——pipelines
ITEM_PIPELINES = {
  'tencent.pipelines.TencentPipeline': 300,
}

执行命令，运行程序

# tencentPosition为爬虫名
scrapy crwal tencentPosition

使用CrawlSpider类改写

# 创建项目
scrapy startproject TencentSpider
# 进入项目目录下，创建爬虫文件
scrapy genspider -t crawl tencent tencent.com
item等文件写法不变，主要是爬虫文件的编写
# -*- coding:utf-8 -*-
import scrapy
# 导入CrawlSpider类和Rule
from scrapy.spiders import CrawlSpider, Rule
# 导入链接规则匹配类，用来提取符合规则的连接
from scrapy.linkextractors import LinkExtractor
from TencentSpider.items import TencentItem
class TencentSpider(CrawlSpider):
  name = "tencent"
  allow_domains = ["hr.tencent.com"]
  start_urls = ["http://hr.tencent.com/position.php?&start=0#a"]
  # Response里链接的提取规则，返回的符合匹配规则的链接匹配对象的列表
  pagelink = LinkExtractor(allow=("start=\d+"))
  rules = [
    # 获取这个列表里的链接，依次发送请求，并且继续跟进，调用指定回调函数处理
    Rule(pagelink, callback = "parseTencent", follow = True)
  ]
  # 指定的回调函数
  def parseTencent(self, response):
    for each in response.xpath("//tr[@class='even'] | //tr[@class='odd']"):
      item = TencentItem()
      # 职位名称
      item['positionname'] = each.xpath("./td[1]/a/text()").extract()[0]
      # 详情连接
      item['positionlink'] = each.xpath("./td[1]/a/@href").extract()[0]
      # 职位类别
      item['positionType'] = each.xpath("./td[2]/text()").extract()[0]
      # 招聘人数
      item['peopleNum'] = each.xpath("./td[3]/text()").extract()[0]
      # 工作地点
      item['workLocation'] = each.xpath("./td[4]/text()").extract()[0]
      # 发布时间
      item['publishTime'] = each.xpath("./td[5]/text()").extract()[0]
      yield item

总结

以上所述是小编给大家介绍的Python爬虫框架Scrapy实例代码，希望对大家有所帮助，如果大家有任何疑问欢迎给我留言，小编会及时回复大家的！

Python爬虫框架Scrapy实例代码

- Author -

YangPython

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python字符串连接方法分析

Apr 12 Python

浅析Python 中整型对象存储的位置

May 16 Python

python实现将excel文件转化成CSV格式

Mar 22 Python

python交互界面的退出方法

Feb 16 Python

django框架实现一次性上传多个文件功能示例【批量上传】

Jun 19 Python

Python 取numpy数组的某几行某几列方法

Oct 24 Python

tensorflow tf.train.batch之数据批量读取方式

Jan 20 Python

宝塔面板成功部署Django项目流程(图文)

Jun 22 Python

Matplotlib.pyplot 三维绘图的实现示例

Jul 28 Python

python利用线程实现多任务

Sep 18 Python

Python爬虫之Selenium实现关闭浏览器

Dec 04 Python

使用Python爬取Json数据的示例代码

Dec 07 Python

详解python中asyncio模块

Mar 03 #Python

python3.6+django2.0开发一套学员管理系统

Mar 03 #Python

python爬虫面试宝典(常见问题)

Mar 02 #Python

Python基于Flask框架配置依赖包信息的项目迁移部署

Mar 02 #Python

谈谈python中GUI的选择

Mar 01 #Python

纯python实现机器学习之kNN算法示例

Mar 01 #Python

用python与文件进行交互的方法

Mar 01 #Python

You might like

浅析echo(),print(),print_r(),return之间的区别

2013/11/27 PHP

php中\r \r\n \t的区别示例介绍

2014/02/08 PHP

PHP检测移动设备类mobile detection使用实例

2014/04/14 PHP

ThinkPHP3.1的Widget新用法

2014/06/19 PHP

ThinkPHP自动转义存储富文本编辑器内容导致读取出错的解决方法

2014/08/08 PHP

谈谈你对Zend SAPIs(Zend SAPI Internals)的理解

2015/11/10 PHP

老鱼浅谈javascript面向对象编程

2010/03/04 Javascript

关于二级域名下使用一级域名下的COOKIE的问题

2011/11/07 Javascript

js中escape对应的C#解码函数 UrlDecode

2012/12/16 Javascript

js文件缓存之版本管理详解

2013/07/05 Javascript

初识SmartJS - AOP三剑客

2014/06/08 Javascript

js贪吃蛇网页版游戏特效代码分享（挑战十关）

2015/08/24 Javascript

jQuery EasyUI Pagination实现分页的常用方法

2016/05/21 Javascript

jQuery自定义图片缩放拖拽插件imageQ实现方法(附demo源码下载)

2016/05/27 Javascript

Javascript的动态增加类的实现方法

2016/10/20 Javascript

javascript 正则表达式去空行方法

2017/01/24 Javascript

JS实现向iframe中表单传值的方法

2017/03/24 Javascript

JavaScript插入排序算法原理与实现方法示例

2018/08/06 Javascript

微信小程序 bindtap 传参的实例代码

2020/02/21 Javascript

python 编写简单网页服务器的实例

2018/06/01 Python

Python中的类与类型示例详解

2019/07/10 Python

python程序创建多线程过程详解

2019/09/23 Python

tensorboard显示空白的解决

2020/02/15 Python

python生成大写32位uuid代码

2020/03/03 Python

python-xpath获取html文档的部分内容

2020/03/06 Python

HTML5 Canvas实现文本对齐的方法总结

2016/03/24 HTML / CSS

html+js 实现markdown编辑器效果

2019/10/23 HTML / CSS

餐饮业会计岗位职责

2013/12/19 职场文书

办公室人员先进事迹

2014/01/27 职场文书

家长给孩子的评语

2014/01/30 职场文书

土木工程专业推荐信

2014/02/19 职场文书

临床医师个人自我评价

2014/04/06 职场文书

领导班子四风表现材料

2014/08/23 职场文书

民事起诉状范文

2015/05/19 职场文书

MySQL中JOIN连接的基本用法实例

2022/06/05 MySQL

python数字图像处理之图像的批量处理

2022/06/28 Python