python爬虫实例之获取动漫截图


Posted in Python onMay 31, 2020

引言

之前有些无聊(呆在家里实在玩的腻了),然后就去B站看了一些python爬虫视频,没有进行基础的理论学习,也就是直接开始实战,感觉跟背公式一样的进行爬虫,也算行吧,至少还能爬一些东西,hhh。我今天来分享一个我的爬虫代码。

正文

话不多说,直接上完整代码

ps:这个代码有些问题 每次我爬到fate的图片它就给我报错,我只好用个try来跳过了,如果有哪位大佬能帮我找出错误并给与纠正,我将不胜感激

import requests as r
import re
import os
import time
file_name = "动漫截图"
if not os.path.exists(file_name):
 os.mkdir(file_name)
    
for p in range(1,34):
  print("--------------------正在爬取第{}页内容------------------".format(p))
  url = 'https://www.acgimage.com/shot/recommend?page={}'.format(p)
  headers = {"user-agent"
   : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36"}
   
  resp = r.get(url, headers=headers) 
  html = resp.text

  images = re.findall('data-original="(.*?)" ', html)
  names =re.findall('title="(.*?)"', html)
  #print(images)
  #print(names)
  dic = dict(zip(images, names))
  for image in images:
    time.sleep(1)
    print(image, dic[image])
    name = dic[image]
    #name = image.split('/')[-1]
    i = r.get(image, headers=headers).content
    try:
      with open(file_name + '/' + name + '.jpg' , 'wb') as f:
       f.write(i)
    except FileNotFoundError:
     continue

先导入要使用的库

import requests as r
import re
import os
import time

然后去分析要去爬的网址: https://www.acgimage.com/shot/recommend

下图是网址的内容:

python爬虫实例之获取动漫截图

好了 url已经确定

下面去寻找headers

python爬虫实例之获取动漫截图

找到user-agent 将其内容复制到headers中

第一步就完成了

下面是代码展示

url = 'https://www.acgimage.com/shot/recommend?page={}'.format(p)
headers = {"user-agent"
   : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36"
   }

然后检索要爬的图片内容

python爬虫实例之获取动漫截图

从上图就可以找到图片的位置:data-origina=后面的内容
以及图片的名字:title=后面的内容

然后用正则表达式re来检索就行了

images = re.findall('data-original="(.*?)" ', html)
names =re.findall('title="(.*?)"', html)

最后将其保存就好了

i = r.get(image, headers=headers).content
with open(file_name + '/' + name + '.jpg' , 'wb') as f:
     f.write(i)

还有就是一些细节了

比如换页

第一页网址:

https://www.acgimage.com/shot/recommend

第二页网址:https://www.acgimage.com/shot/recommend?page=2

然后将page后面的数字改动就可以跳到相应的页面

换页的问题也就解决了

or p in range(1,34):
    url = 'https://www.acgimage.com/shot/recommend?page={}'.format(p)

以及将爬到的图片放到自己建立的文件zh

使用了os库

file_name = "动漫截图"
 if not os.path.exists(file_name):
   os.mkdir(file_name)

以及为了不影响爬取的网站 使用了sleep函数

虽然爬取的速度慢了一些

但是这是应遵守的道德

time.sleep(1)

以上 这就是我的爬虫过程

还是希望大佬能解决我的错误之处

万分感谢

总结

到此这篇关于python爬虫实例之获取动漫截图的文章就介绍到这了,更多相关python爬虫获取动漫截图内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
用Python计算三角函数之acos()方法的使用
May 15 Python
各种Python库安装包下载地址与安装过程详细介绍(Windows版)
Nov 02 Python
Python内存管理方式和垃圾回收算法解析
Nov 11 Python
python3实现windows下同名进程监控
Jun 21 Python
python实现括号匹配的思路详解
Aug 23 Python
Python控制Firefox方法总结
Jun 03 Python
用python写一个定时提醒程序的实现代码
Jul 22 Python
PyTorch: 梯度下降及反向传播的实例详解
Aug 20 Python
Python字符串中添加、插入特定字符的方法
Sep 10 Python
python 消费 kafka 数据教程
Dec 21 Python
python numpy库linspace相同间隔采样的实现
Feb 25 Python
python中count函数知识点浅析
Dec 17 Python
如何利用Python识别图片中的文字
May 31 #Python
Python模拟登入的N种方式(建议收藏)
May 31 #Python
Python多线程正确用法实例解析
May 30 #Python
PyQt5实现简单的计算器
May 30 #Python
PyQt5实现登录页面
May 30 #Python
Python网页解析器使用实例详解
May 30 #Python
PyQt5实现画布小程序
May 30 #Python
You might like
php基础知识:控制结构
2006/12/13 PHP
php中flush()、ob_flush()、ob_end_flush()的区别介绍
2013/02/17 PHP
php使用glob函数快速查询指定目录文件的方法
2014/11/15 PHP
php隐藏IP地址后两位显示为星号的方法
2014/11/21 PHP
今天你说520了吗?不仅有php表白书还有java表白神器
2016/05/20 PHP
CSDN轮换广告图片轮换效果
2007/03/27 Javascript
javascript动态加载实现方法一
2012/08/22 Javascript
Javascript delete 引用类型对象
2013/11/01 Javascript
自定义百度分享的分享按钮
2015/03/18 Javascript
jQuery实现简单二级下拉菜单
2015/04/12 Javascript
javascript排序函数实现数字排序
2015/06/26 Javascript
Jquery实现$.fn.extend和$.extend函数
2016/04/14 Javascript
jQuery Ajax传值到Servlet出现乱码问题的解决方法
2016/10/09 Javascript
vue router-link传参以及参数的使用实例
2017/11/10 Javascript
jquery ajax加载数据前台渲染方式 不用for遍历的方法
2018/08/09 jQuery
Vue仿微信app页面跳转动画效果
2019/08/21 Javascript
JS中准确判断变量类型的方法
2020/06/01 Javascript
echarts.js 动态生成多个图表 使用vue封装组件操作
2020/07/19 Javascript
ant-design-vue中的select选择器,对输入值的进行筛选操作
2020/10/24 Javascript
python使用xmlrpc实例讲解
2013/12/17 Python
Python和GO语言实现的消息摘要算法示例
2015/03/10 Python
python FTP批量下载/删除/上传实例
2019/12/22 Python
浅谈TensorFlow之稀疏张量表示
2020/06/30 Python
日本PLST在线商店:日本时尚杂志刊载的人气服装
2016/12/10 全球购物
ellesse美国官方商店:意大利高级运动服品牌
2019/10/29 全球购物
大学本科毕业生的自我鉴定范文
2013/11/19 职场文书
素食餐饮项目创业计划书
2014/02/02 职场文书
《胡杨》教学反思
2014/02/16 职场文书
高中军训感言1000字
2014/03/01 职场文书
幼儿园家长寄语
2014/04/02 职场文书
2015大学生入党个人自传
2015/06/26 职场文书
幼儿园小班班务总结
2015/08/03 职场文书
纪律委员竞选稿
2015/11/19 职场文书
小学生安全教育心得体会
2016/01/15 职场文书
2016年优秀教师先进事迹材料
2016/02/26 职场文书
演讲稿之我的初心我的成长
2019/08/12 职场文书