编程 Python

Python使用scrapy爬取阳光热线问政平台过程解析

Posted in Python onAugust 14, 2019

目的：爬取阳光热线问政平台问题反映每个帖子里面的标题、内容、编号和帖子url

CrawlSpider版流程如下：

创建爬虫项目dongguang

scrapy startproject dongguang

设置items.py文件

# -*- coding: utf-8 -*-
import scrapy
class NewdongguanItem(scrapy.Item):
  # define the fields for your item here like:
  # name = scrapy.Field()
  # pass
  # 每页的帖子链接
  url = scrapy.Field()
  # 帖子标题
  title = scrapy.Field()
  # 帖子编号
  number = scrapy.Field()
  # 帖子内容
  content = scrapy.Field()

在spiders目录里面，创建并编写爬虫文件sun.py

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from dongguan.items import DongguanItem
class SunSpider(CrawlSpider):
  name = 'dg'
  allowed_domains = ['wz.sun0769.com']
  start_urls = ['http://wz.sun0769.com/html/top/report.shtml']
  # rules是Rule的集合，每个rule规则同时执行。另外，如果发现web服务器有反爬虫机制如返回一个假的url，则可以使用Rule里面的参数process_links调用一个自编函数来处理url后返回一个真的url
  rules = (
    # 每个url都有一个独一无二的指纹，每个爬虫项目都有一个去重队列
    # Rule里面没有回调函数，则默认对匹配的链接要跟进，就是对匹配的链接在进行请求获取响应后对响应里面匹配的链接继续跟进，只不过没有回调函数对响应数据进行处理
    # Rule(LinkExtractor(allow="page="))如果设置为follow=False,则不会跟进，只显示当前页面匹配的链接。如设置为follow=True，则会对每个匹配的链接发送请求获取响应进而从每个响应里面再次匹配跟进，直至没有。python递归深度默认为不超过1000，否则会报异常
    Rule(LinkExtractor(allow="page=")),

    Rule(LinkExtractor(allow='http://wz.sun0769.com/html/question/\d+/\d+.shtml'),callback='parse_item')

  )

  def parse_item(self, response):
    print(response.url)
    item = DongguanItem()
    item['url'] = response.url
    item['title'] = response.xpath('//div[@class="pagecenter p3"]//strong/text()').extract()[0]
    item['number'] = response.xpath('//div[@class="pagecenter p3"]//strong/text()').extract()[0].split(' ')[-1].split(':')[-1]
     # 对帖子里面有图片的处理，发现没有图片时则没有class="contentext"的div标签，以此作为标准获取帖子内容
    if len(response.xpath('//div[@class="contentext"]')) == 0:
      item['content'] = ''.join(response.xpath('//div[@class="c1 text14_2"]/text()').extract())
    else:
      item['content'] = ''.join(response.xpath('//div[@class="contentext"]/text()').extract())
    yield item

编写管道pipelines.py文件

# -*- coding: utf-8 -*-
import json
class DongguanPipeline(object):
  def __init__(self):
    self.file = open('dongguan.json','w')
  def process_item(self, item, spider):
    content = json.dumps(dict(item),ensure_ascii=False).encode('utf-8') + '\n'
    self.file.write(content)
    return item
  def closespider(self):
    self.file.close()

编写settings.py文件

# -*- coding: utf-8 -*-
BOT_NAME = 'dongguan'
SPIDER_MODULES = ['dongguan.spiders']
NEWSPIDER_MODULE = 'dongguan.spiders'
# log日志文件默认保存在当前目录，下面为日志级别，当大于或等于INFO时将被保存
LOG_FILE = 'dongguan.log'
LOG_LEVEL = 'INFO'
# 爬取深度设置
# DEPTH_LIMIT = 1
# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'dongguan (+http://www.yourdomain.com)'
# Obey robots.txt rules
# ROBOTSTXT_OBEY = True
# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32
# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
  'dongguan.pipelines.DongguanPipeline': 300,
}

测试运行爬虫，终端执行命令（只要在项目目录内即可）

scrapy crawl dg

Spider版流程如下：

创建爬虫项目newdongguang

scrapy startproject newdongguan

设置items.py文件

# -*- coding: utf-8 -*-
  import scrapy
  class NewdongguanItem(scrapy.Item):
    # 每页的帖子链接
    url = scrapy.Field()
    # 帖子标题
    title = scrapy.Field()
    # 帖子编号
    number = scrapy.Field()
    # 帖子内容
    content = scrapy.Field()

在spiders目录里面，创建并编写爬虫文件newsun.py

# -*- coding: utf-8 -*-
import scrapy
from newdongguan.items import NewdongguanItem
class NewsunSpider(scrapy.Spider):
  name = 'ndg'
  # 设置爬取的域名范围，可写可不写，不写则表示爬取时候不限域名，结果有可能会导致爬虫失控。
  allowed_domains = ['wz.sun0769.com']
  offset = 0
  url = 'http://wz.sun0769.com/index.php/question/report?page=' + str(offset)
  start_urls = [url]
  def parse(self, response):
    link_list = response.xpath("//a[@class='news14']/@href").extract()
    for each in link_list:
      # 对每页的帖子发送请求，获取帖子内容里面指定数据返回给管道文件
      yield scrapy.Request(each,callback=self.deal_link)
    self.offset += 30
    if self.offset <= 124260:
      url = 'http://wz.sun0769.com/index.php/question/report?page=' + str(self.offset)
      # 对指定分页发送请求，响应交给parse函数处理
      yield scrapy.Request(url,callback=self.parse)

  # 从每个分页帖子内容获取数据，返回给管道
  def deal_link(self,response):
    item = NewdongguanItem()
    item['url'] = response.url
    item['title'] = response.xpath("//div[@class='pagecenter p3']//strong[@class='tgray14']/text()").extract()[0]
    item['number'] = response.xpath("//div[@class='pagecenter p3']//strong[@class='tgray14']/text()").extract()[0].split(' ')[-1].split(':')[-1]

    if len(response.xpath("//div[@class='contentext']")) == 0:
      item['content'] = ''.join(response.xpath("//div[@class='c1 text14_2']/text()").extract())
    else:
      item['content'] = ''.join(response.xpath("//div[@class='contentext']/text()").extract())
    yield item

编写管道pipelines.py文件

# -*- coding: utf-8 -*-
import codecs
import json
class NewdongguanPipeline(object):

  def __init__(self):
    # 使用codecs写文件，直接设置文件内容编码格式，省去每次都要对内容进行编码
    self.file = codecs.open('newdongguan.json','w',encoding = 'utf-8')
    # 以前文件写法
    # self.file = open('newdongguan.json','w')

  def process_item(self, item, spider):
    print(item['title'])
    content = json.dumps(dict(item),ensure_ascii=False) + '\n'
    # 以前文件写法
    # self.file.write(content.encode('utf-8'))
    self.file.write(content)
    return item

  def close_spider(self):
    self.file.close()

编写settings.py文件

# -*- coding: utf-8 -*-
BOT_NAME = 'newdongguan'
SPIDER_MODULES = ['newdongguan.spiders']
NEWSPIDER_MODULE = 'newdongguan.spiders'
# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'newdongguan (+http://www.yourdomain.com)'
USER_AGENT = 'User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;'
# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
  'newdongguan.pipelines.NewdongguanPipeline': 300,
}

测试运行爬虫，终端执行命

srapy crawl ndg

备注：markdown语法关于代码块缩进问题，可通过tab键来解决。而简单文本则可以通过回车键来解决，如Spider版流程如下：和1. 创建爬虫项目newdongguang

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python使用scrapy爬取阳光热线问政平台过程解析

- Author -

silence-cc

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

跟老齐学Python之总结参数的传递

Oct 10 Python

python使用magic模块进行文件类型识别方法

Dec 08 Python

python全栈要学什么 python全栈学习路线

Jun 28 Python

Ubuntu+python将nii图像保存成png格式

Jul 18 Python

python同时替换多个字符串方法示例

Sep 17 Python

python绘制随机网络图形示例

Nov 21 Python

Python将列表中的元素转化为数字并排序的示例

Dec 25 Python

使用python客户端访问impala的操作方式

Mar 28 Python

TensorFlow实现批量归一化操作的示例

Apr 22 Python

解析python 中/ 和 % 和 //（地板除）

Jun 28 Python

python 实现两个npy档案合并

Jul 01 Python

Python爬虫进阶之爬取某视频并下载的实现

Dec 08 Python

用Python抢火车票的简单小程序实现解析

Aug 14 #Python

Python定时任务随机时间执行的实现方法

Aug 14 #Python

查看Python依赖包及其版本号信息的方法

Aug 13 #Python

使用python实现unix2dos和dos2unix命令的例子

Aug 13 #Python

Python编写带选项的命令行程序方法

Aug 13 #Python

使用python模拟命令行终端的示例

Aug 13 #Python

在macOS上搭建python环境的实现方法

Aug 13 #Python

You might like

简单说说PHP优化那些事(经验分享)

2014/11/27 PHP

PHP面向对象程序设计之对象生成方法详解

2016/12/02 PHP

PHP设计模式之装饰器模式实例详解

2018/02/07 PHP

实例介绍PHP中zip_open()函数用法

2019/02/15 PHP

JQuery 获取和设置Select选项的代码

2010/02/07 Javascript

Jquery 1.42 checkbox 全选和反选代码

2010/03/27 Javascript

jquery二级导航内容均分的原理及实现

2013/08/13 Javascript

深入理解JavaScript中的传值与传引用

2013/12/09 Javascript

JavaScript省市联动实现代码

2014/02/15 Javascript

JQuery弹出炫丽对话框的同时让背景变灰色

2014/05/22 Javascript

一个css与js结合的下拉菜单支持主流浏览器

2014/10/08 Javascript

JS实现合并两个数组并去除重复项只留一个的方法

2015/12/17 Javascript

jQuery动态添加

2016/04/07 Javascript

js实现加载更多功能实例

2016/10/27 Javascript

jQuery实现ToolTip元素定位显示功能示例

2016/11/23 Javascript

JS实现购物车特效

2017/02/02 Javascript

详解Vue使用 vue-cli 搭建项目

2017/04/20 Javascript

Bootstrap实现基于carousel.js框架的轮播图效果

2017/05/02 Javascript

webpack4之SplitChunksPlugin使用指南

2018/06/12 Javascript

微信小程序实现运动步数排行功能（可删除）

2018/07/05 Javascript

React精髓！一篇全概括小结(急速)

2019/05/23 Javascript

微信小程序自定义复选框实现代码实例

2019/09/04 Javascript

解决layui的使用以及针对select、radio等表单组件不显示的问题

2019/09/05 Javascript

JS实现点餐自动选择框(案例分析)

2019/12/10 Javascript

webpack DllPlugin xxx is not defined解决办法

2019/12/13 Javascript

解决基于 keep-alive 的后台多级路由缓存问题

2020/12/23 Javascript

[07:38]2014DOTA2国际邀请赛 Newbee顺利挺进胜者组赛后专访

2014/07/15 DOTA

[02:37]2018DOTA2亚洲邀请赛赛前采访-EG篇

2018/04/03 DOTA

Python 高级专用类方法的实例详解

2017/09/11 Python

Python cv2 图像自适应灰度直方图均衡化处理方法

2018/12/07 Python

Python 实现文件打包、上传与校验的方法

2019/02/13 Python

python cookie反爬处理的实现

2020/11/01 Python

教育科学研究生自荐信

2013/10/09 职场文书

python实战之用emoji表情生成文字

2021/05/08 Python

使用pandas模块实现数据的标准化操作

2021/05/14 Python

vue 把二维或多维数组转一维数组

2022/04/24 Vue.js