python爬虫实现爬取同一个网站的多页数据的实例讲解


Posted in Python onJanuary 18, 2021

对于一个网站的图片、文字音视频等,如果我们一个个的下载,不仅浪费时间,而且很容易出错。Python爬虫帮助我们获取需要的数据,这个数据是可以快速批量的获取。本文小编带领大家通过python爬虫获取获取总页数并更改url的方法,实现爬取同一个网站的多页数据。

一、爬虫的目的

从网上获取对你有需要的数据

二、爬虫过程

1、获取url(网址)。

2、发出请求,获得响应。

3、提取数据。

4、保存数据。

三、爬虫功能

可以快速批量的获取想要的数据,不用手动的一个个下载(图片、文字音视频等)

四、使用python爬虫爬取同一网站多页数据

1、需要定位至该标签并获得总页数

def get_page_size(soup):
  pcxt=soup.find('div',{'class':'babynames-term-articles'}).find('nav')
  pcxt1=pcxt.find('div',{'class':'nav-links'}).findAll('a')
  for i in pcxt1[:-1]:
    link=i.get('href')
    s=str(i)
  page=re.sub('<a href="','',s)
  page1=re.sub(link,'',page)
  page2=re.sub('">','',page1)
  page3=re.sub('</a>','',page2)
  pagesize=int(page3)
  print(pagesize)
  return pagesize
Pass

2、更改url来访问网址,也就是进行主函数的编写

if __name__ == '__main__':
    url="http://www.sheknows.com/baby-names/browse/a/"
    soup=get_requests(url)
    page=get_page_size(soup)
    for i in range(1,page+1):
      url1=url+"page/"+str(i)+"/"
      soup1=get_requests(url1)
      draw_base_list(soup1)

实例扩展:

import requests
from lxml import etree
import re

url="https://movie.douban.com/top250"
header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}

allMovieList=[]
flag = True
while flag:
  html = requests.get(url, headers=header).text
  list = etree.HTML(html)
  lis = list.xpath('//ol[@class="grid_view"]/li')
  for oneSelector in lis:
    name = oneSelector.xpath("div/div[2]/div[1]/a/span[1]/text()")[0]
    score = oneSelector.xpath("div/div[2]/div[2]/div/span[2]/text()")[0]
    people = oneSelector.xpath("div/div[2]/div[2]/div/span[4]/text()")[0]
    people = re.findall("(.*?)人评价",people)[0]
    oneMovieList = [name,score,people]
    allMovieList.append(oneMovieList)
  #获取下一页地址
  try:
    next_url = list.xpath('//span[@class="next"]/a/@href')[0]
    if next_url:
      url = "https://movie.douban.com/top250"+ next_url
  except:
    flag = False
print(allMovieList)

到此这篇关于python爬虫实现爬取同一个网站的多页数据的实例讲解的文章就介绍到这了,更多相关python爬虫如何实现爬取同一个网站的多页数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python基于Matplotlib库简单绘制折线图的方法示例
Aug 14 Python
Python3.6安装及引入Requests库的实现方法
Jan 24 Python
PyQt5主窗口动态加载Widget实例代码
Feb 07 Python
Python实现的json文件读取及中文乱码显示问题解决方法
Aug 06 Python
Python根据文件名批量转移图片的方法
Oct 21 Python
Python多图片合并PDF的方法
Jan 03 Python
详解python解压压缩包的五种方法
Jul 05 Python
利用python实现汉字转拼音的2种方法
Aug 12 Python
python 用 xlwings 库 生成图表的操作方法
Dec 22 Python
Python3标准库之threading进程中管理并发操作方法
Mar 30 Python
Tensorflow中批量读取数据的案列分析及TFRecord文件的打包与读取
Jun 30 Python
Python3爬虫里关于识别微博宫格验证码的知识点详解
Jul 30 Python
python中四舍五入的正确打开方式
Jan 18 #Python
PyQt5中QSpinBox计数器的实现
Jan 18 #Python
全网最细 Python 格式化输出用法讲解(推荐)
Jan 18 #Python
PyQt实现计数器的方法示例
Jan 18 #Python
Python实现邮件发送的详细设置方法(遇到问题)
Jan 18 #Python
Python实现一个论文下载器的过程
Jan 18 #Python
利用python为PostgreSQL的表自动添加分区
Jan 18 #Python
You might like
获取用户Ip地址通用方法与常见安全隐患(HTTP_X_FORWARDED_FOR)
2013/06/01 PHP
javascript之函数直接量(function(){})()
2007/06/29 Javascript
php和js对数据库图片进行等比缩放示例
2014/04/28 Javascript
JS+CSS实现带有碰撞缓冲效果的竖向导航条代码
2015/09/15 Javascript
javascript实现checkbox复选框实例代码
2016/01/10 Javascript
APP中javascript+css3实现下拉刷新效果
2016/01/27 Javascript
jQuery基于json与cookie实现购物车的方法
2016/04/15 Javascript
浅谈jquery点击label触发2次的问题
2016/06/12 Javascript
JS区分Object与Aarry的六种方法总结
2017/02/27 Javascript
jQuery使用JSONP实现跨域获取数据的三种方法详解
2017/05/04 jQuery
详细介绍RxJS在Angular中的应用
2017/09/23 Javascript
vue2 全局变量的设置方法
2018/03/09 Javascript
Vue中computed与methods的区别详解
2018/03/24 Javascript
vue实现购物车抛物线小球动画效果的方法详解
2019/02/13 Javascript
js对象数组和对象的使用实例详解
2019/08/27 Javascript
layui数据表格跨行自动合并的例子
2019/09/02 Javascript
vue+webpack dev本地调试全局样式引用失效的解决方案
2019/11/12 Javascript
微信小程序实现锚点功能
2019/11/20 Javascript
Python中使用OpenCV库来进行简单的气象学遥感影像计算
2016/02/19 Python
详解使用python的logging模块在stdout输出的两种方法
2017/05/17 Python
Python 3.7新功能之dataclass装饰器详解
2018/04/21 Python
python 读取txt中每行数据,并且保存到excel中的实例
2018/04/29 Python
Django处理Ajax发送的Get请求代码详解
2019/07/29 Python
python下载的库包存放路径
2020/07/27 Python
python实现图片转换成素描和漫画格式
2020/08/19 Python
Python爬虫教程知识点总结
2020/10/19 Python
div或img图片高度随宽度自适应的方法
2020/02/06 HTML / CSS
Holiday Inn中国官网:IHG旗下假日酒店预订
2018/04/08 全球购物
美国玩具公司:U.S.Toy
2018/05/19 全球购物
营业员演讲稿
2013/12/30 职场文书
高中学生期末评语
2014/04/25 职场文书
民主评议政风行风活动心得体会
2014/10/29 职场文书
瞿秋白纪念馆观后感
2015/06/10 职场文书
详解Html5项目适配系统深色模式方案总结
2021/04/14 HTML / CSS
python使用PySimpleGUI设置进度条及控件使用
2021/06/10 Python
浅谈Redis的keys命令到底有多慢
2021/10/05 Redis