python爬虫实现爬取同一个网站的多页数据的实例讲解


Posted in Python onJanuary 18, 2021

对于一个网站的图片、文字音视频等,如果我们一个个的下载,不仅浪费时间,而且很容易出错。Python爬虫帮助我们获取需要的数据,这个数据是可以快速批量的获取。本文小编带领大家通过python爬虫获取获取总页数并更改url的方法,实现爬取同一个网站的多页数据。

一、爬虫的目的

从网上获取对你有需要的数据

二、爬虫过程

1、获取url(网址)。

2、发出请求,获得响应。

3、提取数据。

4、保存数据。

三、爬虫功能

可以快速批量的获取想要的数据,不用手动的一个个下载(图片、文字音视频等)

四、使用python爬虫爬取同一网站多页数据

1、需要定位至该标签并获得总页数

def get_page_size(soup):
  pcxt=soup.find('div',{'class':'babynames-term-articles'}).find('nav')
  pcxt1=pcxt.find('div',{'class':'nav-links'}).findAll('a')
  for i in pcxt1[:-1]:
    link=i.get('href')
    s=str(i)
  page=re.sub('<a href="','',s)
  page1=re.sub(link,'',page)
  page2=re.sub('">','',page1)
  page3=re.sub('</a>','',page2)
  pagesize=int(page3)
  print(pagesize)
  return pagesize
Pass

2、更改url来访问网址,也就是进行主函数的编写

if __name__ == '__main__':
    url="http://www.sheknows.com/baby-names/browse/a/"
    soup=get_requests(url)
    page=get_page_size(soup)
    for i in range(1,page+1):
      url1=url+"page/"+str(i)+"/"
      soup1=get_requests(url1)
      draw_base_list(soup1)

实例扩展:

import requests
from lxml import etree
import re

url="https://movie.douban.com/top250"
header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}

allMovieList=[]
flag = True
while flag:
  html = requests.get(url, headers=header).text
  list = etree.HTML(html)
  lis = list.xpath('//ol[@class="grid_view"]/li')
  for oneSelector in lis:
    name = oneSelector.xpath("div/div[2]/div[1]/a/span[1]/text()")[0]
    score = oneSelector.xpath("div/div[2]/div[2]/div/span[2]/text()")[0]
    people = oneSelector.xpath("div/div[2]/div[2]/div/span[4]/text()")[0]
    people = re.findall("(.*?)人评价",people)[0]
    oneMovieList = [name,score,people]
    allMovieList.append(oneMovieList)
  #获取下一页地址
  try:
    next_url = list.xpath('//span[@class="next"]/a/@href')[0]
    if next_url:
      url = "https://movie.douban.com/top250"+ next_url
  except:
    flag = False
print(allMovieList)

到此这篇关于python爬虫实现爬取同一个网站的多页数据的实例讲解的文章就介绍到这了,更多相关python爬虫如何实现爬取同一个网站的多页数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python实现的数据结构与算法之队列详解
Apr 22 Python
Python之reload流程实例代码解析
Jan 29 Python
对Python 检查文件名是否规范的实例详解
Jun 10 Python
PyCharm中代码字体大小调整方法
Jul 29 Python
Python字典底层实现原理详解
Dec 18 Python
如何在 Django 模板中输出 &quot;{{&quot;
Jan 24 Python
python实现logistic分类算法代码
Feb 28 Python
django处理select下拉表单实例(从model到前端到post到form)
Mar 13 Python
什么是python的自省
Jun 21 Python
PyTorch 导数应用的使用教程
Aug 31 Python
Python实现自动玩连连看的脚本分享
Apr 04 Python
Python基本知识点总结
Apr 07 Python
python中四舍五入的正确打开方式
Jan 18 #Python
PyQt5中QSpinBox计数器的实现
Jan 18 #Python
全网最细 Python 格式化输出用法讲解(推荐)
Jan 18 #Python
PyQt实现计数器的方法示例
Jan 18 #Python
Python实现邮件发送的详细设置方法(遇到问题)
Jan 18 #Python
Python实现一个论文下载器的过程
Jan 18 #Python
利用python为PostgreSQL的表自动添加分区
Jan 18 #Python
You might like
分页显示Oracle数据库记录的类之二
2006/10/09 PHP
PHP聊天室技术
2006/10/09 PHP
PHP中两个float(浮点数)比较实例分析
2015/09/27 PHP
javascript 页面只自动刷新一次
2009/07/10 Javascript
Jquery选择子控件&quot;大于号&quot;和&quot; &quot;区别介绍及使用示例
2013/06/25 Javascript
js函数参数设置默认值的一种变通实现方法
2014/05/26 Javascript
js 实现的可折叠留言板(附源码下载)
2014/07/01 Javascript
一个简单的动态加载js和css的jquery代码
2014/09/01 Javascript
dreamweaver 8实现Jquery自动提示
2014/12/04 Javascript
基于jquery ui的alert,confirm方案(支持换肤)
2015/04/03 Javascript
jQuery插件scroll实现无缝滚动效果
2015/04/27 Javascript
Nodejs实现批量下载妹纸图
2015/05/28 NodeJs
使用jQuery在对象中缓存选择器的简单方法
2015/06/30 Javascript
深入剖析JavaScript中的函数currying柯里化
2016/04/29 Javascript
基于原生JS实现图片裁剪
2016/08/01 Javascript
js内置对象处理_打印学生成绩单的简单实现
2016/09/24 Javascript
jQuery插件FusionCharts绘制2D柱状图和折线图的组合图效果示例【附demo源码】
2017/04/10 jQuery
Vue+Element使用富文本编辑器的示例代码
2017/08/14 Javascript
VUE接入腾讯验证码功能(滑块验证)备忘
2019/05/07 Javascript
详解ES6 中的Object.assign()的用法实例代码
2021/01/11 Javascript
使用Python脚本在Linux下实现部分Bash Shell的教程
2015/04/17 Python
PyCharm 常用快捷键和设置方法
2017/12/20 Python
对python中执行DOS命令的3种方法总结
2018/05/12 Python
Flask之请求钩子的实现
2018/12/23 Python
Python 利用高德地图api实现经纬度与地址的批量转换
2019/08/14 Python
如何使用Python自动生成报表并以邮件发送
2020/10/15 Python
美国儿童玩具、装扮和玩偶商店:Magic Cabin
2018/09/02 全球购物
Java和Javasciprt的区别
2012/09/02 面试题
电气专业推荐信范文
2013/11/18 职场文书
安全生产大检查方案
2014/05/07 职场文书
汉语言文学毕业求职信
2014/07/17 职场文书
酒店总经理岗位职责范本
2014/08/08 职场文书
12.4全国法制宣传日活动方案
2014/11/02 职场文书
2014年销售员工作总结
2014/12/01 职场文书
民事二审代理词
2015/05/25 职场文书
《狼牙山五壮士》读后感:宁死不屈,视死如归
2019/08/16 职场文书