python爬虫实现爬取同一个网站的多页数据的实例讲解


Posted in Python onJanuary 18, 2021

对于一个网站的图片、文字音视频等,如果我们一个个的下载,不仅浪费时间,而且很容易出错。Python爬虫帮助我们获取需要的数据,这个数据是可以快速批量的获取。本文小编带领大家通过python爬虫获取获取总页数并更改url的方法,实现爬取同一个网站的多页数据。

一、爬虫的目的

从网上获取对你有需要的数据

二、爬虫过程

1、获取url(网址)。

2、发出请求,获得响应。

3、提取数据。

4、保存数据。

三、爬虫功能

可以快速批量的获取想要的数据,不用手动的一个个下载(图片、文字音视频等)

四、使用python爬虫爬取同一网站多页数据

1、需要定位至该标签并获得总页数

def get_page_size(soup):
  pcxt=soup.find('div',{'class':'babynames-term-articles'}).find('nav')
  pcxt1=pcxt.find('div',{'class':'nav-links'}).findAll('a')
  for i in pcxt1[:-1]:
    link=i.get('href')
    s=str(i)
  page=re.sub('<a href="','',s)
  page1=re.sub(link,'',page)
  page2=re.sub('">','',page1)
  page3=re.sub('</a>','',page2)
  pagesize=int(page3)
  print(pagesize)
  return pagesize
Pass

2、更改url来访问网址,也就是进行主函数的编写

if __name__ == '__main__':
    url="http://www.sheknows.com/baby-names/browse/a/"
    soup=get_requests(url)
    page=get_page_size(soup)
    for i in range(1,page+1):
      url1=url+"page/"+str(i)+"/"
      soup1=get_requests(url1)
      draw_base_list(soup1)

实例扩展:

import requests
from lxml import etree
import re

url="https://movie.douban.com/top250"
header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}

allMovieList=[]
flag = True
while flag:
  html = requests.get(url, headers=header).text
  list = etree.HTML(html)
  lis = list.xpath('//ol[@class="grid_view"]/li')
  for oneSelector in lis:
    name = oneSelector.xpath("div/div[2]/div[1]/a/span[1]/text()")[0]
    score = oneSelector.xpath("div/div[2]/div[2]/div/span[2]/text()")[0]
    people = oneSelector.xpath("div/div[2]/div[2]/div/span[4]/text()")[0]
    people = re.findall("(.*?)人评价",people)[0]
    oneMovieList = [name,score,people]
    allMovieList.append(oneMovieList)
  #获取下一页地址
  try:
    next_url = list.xpath('//span[@class="next"]/a/@href')[0]
    if next_url:
      url = "https://movie.douban.com/top250"+ next_url
  except:
    flag = False
print(allMovieList)

到此这篇关于python爬虫实现爬取同一个网站的多页数据的实例讲解的文章就介绍到这了,更多相关python爬虫如何实现爬取同一个网站的多页数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中设置变量作为默认值时容易遇到的错误
Apr 03 Python
python制作爬虫并将抓取结果保存到excel中
Apr 06 Python
Eclipse和PyDev搭建完美Python开发环境教程(Windows篇)
Nov 16 Python
利用Python操作消息队列RabbitMQ的方法教程
Jul 19 Python
Python3 venv搭建轻量级虚拟环境的步骤(图文)
Aug 09 Python
flask框架蓝图和子域名配置详解
Jan 25 Python
一文了解python 3 字符串格式化 F-string 用法
Mar 04 Python
pandas之分组groupby()的使用整理与总结
Jun 18 Python
python爬虫中抓取指数的实例讲解
Dec 01 Python
python中yield的用法详解
Jan 13 Python
python 可视化库PyG2Plot的使用
Jan 21 Python
python快速安装OpenCV的步骤记录
Feb 22 Python
python中四舍五入的正确打开方式
Jan 18 #Python
PyQt5中QSpinBox计数器的实现
Jan 18 #Python
全网最细 Python 格式化输出用法讲解(推荐)
Jan 18 #Python
PyQt实现计数器的方法示例
Jan 18 #Python
Python实现邮件发送的详细设置方法(遇到问题)
Jan 18 #Python
Python实现一个论文下载器的过程
Jan 18 #Python
利用python为PostgreSQL的表自动添加分区
Jan 18 #Python
You might like
超神学院:鹤熙已踏入神圣领域,实力不比凯莎弱
2020/03/02 国漫
php打印一个边长为N的实心和空心菱型的方法
2015/03/02 PHP
PHP中使用curl入门教程
2015/07/02 PHP
PHP类的封装与继承详解
2015/09/29 PHP
Laravel5.5 实现后台管理登录的方法(自定义用户表登录)
2019/09/30 PHP
如何实现动态删除javascript函数
2007/05/27 Javascript
防止网站内容被拷贝的一些方法与优缺点好处与坏处分析
2007/11/30 Javascript
刷新页面实现方式总结(HTML,ASP,JS)
2008/11/13 Javascript
javascript 自定义事件初探
2009/08/21 Javascript
js统计录入文本框中字符的个数并加以限制不超过多少
2014/05/23 Javascript
Vue实现双向绑定的方法
2016/12/22 Javascript
touch.js 拖动、缩放、旋转 (鼠标手势)功能代码
2017/02/04 Javascript
JavaScript中的子窗口与父窗口的互相调用问题
2017/02/08 Javascript
从零学习node.js之express入门(六)
2017/02/25 Javascript
jQuery中复合选择器简单用法示例
2018/03/31 jQuery
微信小程序收藏功能的实现代码
2018/06/12 Javascript
微信小程序修改swiper默认指示器样式的实例代码
2018/07/18 Javascript
vue watch关于对象内的属性监听
2019/04/22 Javascript
layui实现二维码弹窗、并下载到本地的方法
2019/09/25 Javascript
Jquery属性的获取/设置及样式添加/删除操作技巧分析
2019/12/23 jQuery
前端开发之便利店收银系统代码
2019/12/27 Javascript
[09:37]2018DOTA2国际邀请赛寻真——不懈追梦的Team Serenity
2018/08/13 DOTA
python 写的一个爬虫程序源码
2016/02/28 Python
Python与R语言的简要对比
2017/11/14 Python
mac下如何将python2.7改为python3
2018/07/13 Python
安装2019Pycharm最新版本的教程详解
2019/10/22 Python
Python实现图像的垂直投影示例
2020/01/17 Python
什么是CSS3 HSLA色彩模式?HSLA模拟渐变色条
2016/04/26 HTML / CSS
HTML5 input placeholder 颜色修改示例
2014/05/30 HTML / CSS
机电专业毕业生推荐信
2013/11/10 职场文书
酒店个人求职信范文
2014/01/25 职场文书
班子个人四风问题整改措施
2014/10/04 职场文书
幼儿园教研工作总结2015
2015/05/12 职场文书
倡议书怎么写?
2019/04/11 职场文书
Mysql事务索引知识汇总
2022/03/17 MySQL
使用 Koa + TS + ESLlint 搭建node服务器的过程详解
2022/05/30 NodeJs