编程 Python

使用Python爬取小姐姐图片（beautifulsoup法）

Posted in Python onFebruary 11, 2021

Python有许多强大的库用于爬虫，如beautifulsoup、requests等，本文将以网站https://www.xiurenji.cc/XiuRen/为例（慎点！！），讲解网络爬取图片的一般步骤。
为什么选择这个网站？其实与网站的内容无关。主要有两项技术层面的原因：①该网站的页面构造较有规律，适合新手对爬虫的技巧加强认识。②该网站没有反爬虫机制，可以放心使用爬虫。

第三方库需求

beautifulsoup
requests

步骤

打开网站，点击不同的页面：
发现其首页是https://www.xiurenji.cc/XiuRen/，而第二页是https://www.xiurenji.cc/XiuRen/index2.html，第三页第四页以此类推。为了爬虫代码的普适性，我们不妨从第二页以后进行构造url。

使用Python爬取小姐姐图片（beautifulsoup法）

选中封面图片，点击检查：

使用Python爬取小姐姐图片（beautifulsoup法）

可以发现，图片的信息，都在'div',class_='dan'里，而链接又在a标签下的href里。据此我们可以写一段代码提取出每一个封面图片的url：

def getFirstPage(page):
  url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#获得网站每一个首页的网址
  res=requests.get(url)#发送请求
  res.encoding="gbk"#设置编码方式为gbk
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists=soup.find_all('div',class_='dan')#找到储存每一个封面图片的标签值
  urls=[]
  for item in lists:
   url1=item.find('a').get('href')#寻找每一个封面对应的网址
   urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一个元素，达到扩充列表的目的，注意要把网址扩充完整
  return urls#返回该主页每一个封面对应的网址

点击封面图片，打开不同的页面，可以发现，首页的网址是https://www.xiurenji.cc/XiuRen/xxxx.html，而第二页的网址是https://www.xiurenji.cc/XiuRen/xxxx_1.html，第三第四页同理。同样为了普适性，我们从第二页开始爬取。

使用Python爬取小姐姐图片（beautifulsoup法）

右键，点击“检查”：

使用Python爬取小姐姐图片（beautifulsoup法）

可以发现所有的图片信息都储存在'div',class_='img'中，链接、标题分别在img标签中的src和alt中，我们同样也可以将它们提取出来。

def getFirstPage(page):
  url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#获得网站每一个首页的网址
  res=requests.get(url)#发送请求
  res.encoding="gbk"#设置编码方式为gbk
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists=soup.find_all('div',class_='dan')#找到储存每一个封面图片的标签值
  urls=[]
  for item in lists:
   url1=item.find('a').get('href')#寻找每一个封面对应的网址
   urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一个元素，达到扩充列表的目的，注意要把网址扩充完整
  return urls#返回该主页每一个封面对应的网址

完整代码

import requests
from bs4 import BeautifulSoup

def getFirstPage(page):
  url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#获得网站每一个首页的网址
  res=requests.get(url)#发送请求
  res.encoding="gbk"#设置编码方式为gbk
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists=soup.find_all('div',class_='dan')#找到储存每一个封面图片的标签值
  urls=[]
  for item in lists:
   url1=item.find('a').get('href')#寻找每一个封面对应的网址
   urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一个元素，达到扩充列表的目的，注意要把网址扩充完整
  return urls#返回该主页每一个封面对应的网址

def download(urls):
 for url1 in urls:
  print("prepare to download pictures in "+url1)
  getEveryPage(url1)#下载页面内的图片
  print("all pictures in "+url1+"are downloaded")
  
def getEveryPage(url1):
 total=0#total的作用：对属于每一个封面内的图片一次编号
 for n in range (1,11):#每一个封面对应下载10张图，可自行调整
  temp=url1.replace('.html','')
  url2=temp+'_'+str(n)+'.html'#获得每一内部页面的网址
  res=requests.get(url2)
  res.encoding="gbk"
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists1=soup.find_all('div',class_='img')#储存图片的路径
  
  for item in lists1:
   url=item.find('img').get('src')
   title=item.find('img').get('alt')#获取图片及其标题
   picurl='https://www.xiurenji.cc'+url#获取完整的图片标题
   picture=requests.get(picurl).content#下载图片
   address='D:\pythonimages'+'\\'#自定义保存图片的路径
   with open(address+title+str(total)+'.jpg','wb') as file:#保存图片
    print("downloading"+title+str(total))
    total=total+1
    file.write(picture)
    

if __name__ == "__main__":
 page=int(input('input the page you want:'))
 urls=getFirstPage(page)
 download(urls)

本文仅供学习参考，切勿用作其他用途！

到此这篇关于Python爬取小姐姐图片（beautifulsoup法）的文章就介绍到这了,更多相关Python爬取小姐姐图片内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

使用Python爬取小姐姐图片（beautifulsoup法）

- Author -

割韭菜的喵酱

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

在类Unix系统上开始Python3编程入门

Aug 20 Python

python中enumerate函数遍历元素用法分析

Mar 11 Python

深入理解Python中的*重复运算符

Oct 28 Python

使用Python进行AES加密和解密的示例代码

Feb 02 Python

python字符串和常用数据结构知识总结

May 21 Python

python3 动态模块导入与全局变量使用实例

Dec 22 Python

python自动化unittest yaml使用过程解析

Feb 03 Python

python判断两个序列的成员是否一样的实例代码

Mar 01 Python

Python实现播放和录制声音的功能

Aug 12 Python

python在linux环境下安装skimage的示例代码

Oct 14 Python

python opencv常用图形绘制方法(线段、矩形、圆形、椭圆、文本)

Apr 12 Python

Pytorch使用shuffle打乱数据的操作

May 20 Python

详解python日志输出使用配置文件格式

Feb 10 #Python

python 获取域名到期时间的方法步骤

Feb 10 #Python

Numpy ndarray 多维数组对象的使用

Feb 10 #Python

Python将QQ聊天记录生成词云的示例代码

Feb 10 #Python

python利用文件时间批量重命名照片和视频

Feb 09 #Python

python opencv实现图像配准与比较

Feb 09 #Python

python urllib和urllib3知识点总结

Feb 08 #Python

You might like

PHP数据库操作面向对象的优点

2006/10/09 PHP

PHP SPL标准库之数据结构堆(SplHeap)简单使用实例

2015/05/12 PHP

PHP实现的mysql主从数据库状态检测功能示例

2017/07/20 PHP

laravel migrate初学常见错误的解决方法

2017/10/11 PHP

javascript学习随笔(使用window和frame)的技巧

2007/03/08 Javascript

jQuery实现密保互斥问题解决方案

2013/08/16 Javascript

js判读浏览器是否支持html5的canvas的代码

2013/11/18 Javascript

javascript遍历控件实例详细解析

2014/01/10 Javascript

ZeroClipboard插件实现多浏览器复制功能(支持firefox、chrome、ie6)

2014/08/30 Javascript

JavaScript常用本地对象小结

2016/03/28 Javascript

基于jQuery实现仿百度首页选项卡切换效果

2016/05/29 Javascript

js判断输入字符串是否为空、空格、null的方法总结

2016/06/14 Javascript

BootStrap使用popover插件实现鼠标经过显示并保持显示框

2016/06/23 Javascript

js实现文字无缝向上滚动

2017/02/16 Javascript

vue单页面打包文件大？首次加载慢？nginx带你飞，从7.5M到1.3M蜕变过程(推荐)

2018/01/16 Javascript

关于express与koa的使用对比详解

2018/01/25 Javascript

浅析JS中回调函数及用法

2018/07/25 Javascript

Vue Element UI + OSS实现上传文件功能

2019/07/31 Javascript

JavaScript随机数的组合问题案例分析

2020/05/16 Javascript

微信小程序订阅消息(java后端实现)开发

2020/06/01 Javascript

[48:26]VGJ.S vs infamous Supermajor 败者组 BO3 第二场 6.4

2018/06/05 DOTA

Windows8下安装Python的BeautifulSoup

2015/01/22 Python

Python 正则表达式的高级用法

2016/12/04 Python

修改python plot折线图的坐标轴刻度方法

2018/12/13 Python

tensorflow estimator 使用hook实现finetune方式

2020/01/21 Python

Python3自定义http/https请求拦截mitmproxy脚本实例

2020/05/11 Python

Michael Kors美国官网：美式奢侈生活风格的代表

2016/11/25 全球购物

adidas瑞典官方网站：购买阿迪达斯鞋子和运动服

2019/12/11 全球购物

电子商务应届生求职信

2013/11/16 职场文书

仓管岗位职责范本

2014/02/08 职场文书

创建绿色学校先进个人材料

2014/08/20 职场文书

2014党员干部四风问题对照检查材料思想汇报

2014/09/24 职场文书

2014工程部年度工作总结

2014/12/17 职场文书

求职简历自荐信怎么写

2015/03/26 职场文书

尼克胡哲观后感

2015/06/08 职场文书

Python类方法总结讲解

2021/07/26 Python