Python爬虫 scrapy框架爬取某招聘网存入mongodb解析


Posted in Python onJuly 31, 2019

创建项目

scrapy startproject zhaoping

创建爬虫

cd zhaoping
scrapy genspider hr zhaopingwang.com

目录结构

Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

items.py

title = scrapy.Field()
  position = scrapy.Field()
  publish_date = scrapy.Field()

pipelines.py

from pymongo import MongoClient

mongoclient = MongoClient(host='192.168.226.150',port=27017)
collection = mongoclient['zhaoping']['hr']

class TencentPipeline(object):
  def process_item(self, item, spider):
    print(item)
    # 需要转换为 dict
    collection.insert(dict(item))
    return item

spiders/hr.py

def parse(self, response):
    # 不要第一个 和最后一个
    tr_list = response.xpath("//table[@class='tablelist']/tr")[1:-1]
    for tr in tr_list:
      item = TencentItem()
      # xpath 从1 开始数起
      item["title"] = tr.xpath("./td[1]/a/text()").extract_first()
      item["position"] = tr.xpath("./td[2]/text()").extract_first()
      item["publish_date"] = tr.xpath("./td[5]/text()").extract_first()
      yield item

    next_url = response.xpath("//a[@id='next']/@href").extract_first()
    # 构造url
    if next_url != "javascript:;":
      print(next_url)
      next_url = "https://hr.tencent.com/" + next_url
      yield scrapy.Request(url=next_url,callback=self.parse,)

就是这么简单,就获取到数据

Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python 采集中文乱码问题的完美解决方法
Sep 27 Python
聊聊Python中的pypy
Jan 12 Python
python SMTP实现发送带附件电子邮件
May 22 Python
浅谈pandas用groupby后对层级索引levels的处理方法
Nov 06 Python
Python实现批量修改图片格式和大小的方法【opencv库与PIL库】
Dec 03 Python
python 读取鼠标点击坐标的实例
Dec 29 Python
基于python及pytorch中乘法的使用详解
Dec 27 Python
在tensorflow中设置使用某一块GPU、多GPU、CPU的操作
Feb 07 Python
python 已知平行四边形三个点,求第四个点的案例
Apr 12 Python
Python读取Excel数据并生成图表过程解析
Jun 18 Python
使用keras时input_shape的维度表示问题说明
Jun 29 Python
python 对象真假值的实例(哪些视为False)
Dec 11 Python
python爬虫 模拟登录人人网过程解析
Jul 31 #Python
Python爬虫 bilibili视频弹幕提取过程详解
Jul 31 #Python
Django实现跨域的2种方法
Jul 31 #Python
Django CSRF跨站请求伪造防护过程解析
Jul 31 #Python
在VS2017中用C#调用python脚本的实现
Jul 31 #Python
使用pip安装python库的多种方式
Jul 31 #Python
python实现几种归一化方法(Normalization Method)
Jul 31 #Python
You might like
PHP+MySQL5.0中文乱码解决方法
2006/11/20 PHP
php开发工具之vs2005图解
2008/01/12 PHP
ajax 的post方法实例(带循环)
2011/07/04 PHP
浅析ThinkPHP中execute和query方法的区别
2014/06/13 PHP
WordPress中创建用户角色的相关PHP函数使用详解
2015/12/25 PHP
php之可变函数的实例详解
2017/09/13 PHP
下拉列表select 由左边框移动到右边示例
2013/12/04 Javascript
jQuery简易图片放大特效示例代码
2014/06/09 Javascript
使用jQuery.wechat构建微信WEB应用
2014/10/09 Javascript
JavaScript数据类型转换的注意事项
2016/07/31 Javascript
纯前端JavaScript实现Excel IO案例分享
2016/08/26 Javascript
axios学习教程全攻略
2017/03/26 Javascript
让nodeJS支持ES6的词法----babel的安装和使用方法
2017/07/31 NodeJs
vue一个页面实现音乐播放器的示例
2018/02/06 Javascript
微信小程序获取音频时长与实时获取播放进度问题
2018/08/28 Javascript
[51:32]Optic vs Serenity 2018国际邀请赛淘汰赛BO3 第一场 8.22
2018/08/23 DOTA
python超简单解决约瑟夫环问题
2015/05/12 Python
基于wxpython开发的简单gui计算器实例
2015/05/30 Python
python使用super()出现错误解决办法
2017/08/14 Python
MySQL适配器PyMySQL详解
2017/09/20 Python
Pandas探索之高性能函数eval和query解析
2017/10/28 Python
Python操作Sql Server 2008数据库的方法详解
2018/05/17 Python
对Python 中矩阵或者数组相减的法则详解
2019/08/26 Python
python实现的分层随机抽样案例
2020/02/25 Python
Python Matplotlib绘图基础知识代码解析
2020/08/31 Python
波兰最大的儿童服装连锁店之一:5.10.15.
2018/02/11 全球购物
俄罗斯女装店:12storeez
2019/10/25 全球购物
上海中网科技笔试题
2012/02/19 面试题
季度思想汇报
2014/01/01 职场文书
大学校园生活自我鉴定
2014/01/13 职场文书
初中生自我鉴定
2014/02/04 职场文书
青年文明号复核材料
2014/02/11 职场文书
土建施工员岗位职责
2014/07/16 职场文书
四风问题民主生活会对照检查材料思想汇报
2014/09/27 职场文书
村主任“四风”问题个人整改措施
2014/10/04 职场文书
实习证明模板
2015/06/16 职场文书