python爬虫实例之获取动漫截图


Posted in Python onMay 31, 2020

引言

之前有些无聊(呆在家里实在玩的腻了),然后就去B站看了一些python爬虫视频,没有进行基础的理论学习,也就是直接开始实战,感觉跟背公式一样的进行爬虫,也算行吧,至少还能爬一些东西,hhh。我今天来分享一个我的爬虫代码。

正文

话不多说,直接上完整代码

ps:这个代码有些问题 每次我爬到fate的图片它就给我报错,我只好用个try来跳过了,如果有哪位大佬能帮我找出错误并给与纠正,我将不胜感激

import requests as r
import re
import os
import time
file_name = "动漫截图"
if not os.path.exists(file_name):
 os.mkdir(file_name)
    
for p in range(1,34):
  print("--------------------正在爬取第{}页内容------------------".format(p))
  url = 'https://www.acgimage.com/shot/recommend?page={}'.format(p)
  headers = {"user-agent"
   : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36"}
   
  resp = r.get(url, headers=headers) 
  html = resp.text

  images = re.findall('data-original="(.*?)" ', html)
  names =re.findall('title="(.*?)"', html)
  #print(images)
  #print(names)
  dic = dict(zip(images, names))
  for image in images:
    time.sleep(1)
    print(image, dic[image])
    name = dic[image]
    #name = image.split('/')[-1]
    i = r.get(image, headers=headers).content
    try:
      with open(file_name + '/' + name + '.jpg' , 'wb') as f:
       f.write(i)
    except FileNotFoundError:
     continue

先导入要使用的库

import requests as r
import re
import os
import time

然后去分析要去爬的网址: https://www.acgimage.com/shot/recommend

下图是网址的内容:

python爬虫实例之获取动漫截图

好了 url已经确定

下面去寻找headers

python爬虫实例之获取动漫截图

找到user-agent 将其内容复制到headers中

第一步就完成了

下面是代码展示

url = 'https://www.acgimage.com/shot/recommend?page={}'.format(p)
headers = {"user-agent"
   : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36"
   }

然后检索要爬的图片内容

python爬虫实例之获取动漫截图

从上图就可以找到图片的位置:data-origina=后面的内容
以及图片的名字:title=后面的内容

然后用正则表达式re来检索就行了

images = re.findall('data-original="(.*?)" ', html)
names =re.findall('title="(.*?)"', html)

最后将其保存就好了

i = r.get(image, headers=headers).content
with open(file_name + '/' + name + '.jpg' , 'wb') as f:
     f.write(i)

还有就是一些细节了

比如换页

第一页网址:

https://www.acgimage.com/shot/recommend

第二页网址:https://www.acgimage.com/shot/recommend?page=2

然后将page后面的数字改动就可以跳到相应的页面

换页的问题也就解决了

or p in range(1,34):
    url = 'https://www.acgimage.com/shot/recommend?page={}'.format(p)

以及将爬到的图片放到自己建立的文件zh

使用了os库

file_name = "动漫截图"
 if not os.path.exists(file_name):
   os.mkdir(file_name)

以及为了不影响爬取的网站 使用了sleep函数

虽然爬取的速度慢了一些

但是这是应遵守的道德

time.sleep(1)

以上 这就是我的爬虫过程

还是希望大佬能解决我的错误之处

万分感谢

总结

到此这篇关于python爬虫实例之获取动漫截图的文章就介绍到这了,更多相关python爬虫获取动漫截图内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中decorator使用实例
Apr 14 Python
Python实现更改图片尺寸大小的方法(基于Pillow包)
Sep 19 Python
python条件变量之生产者与消费者操作实例分析
Mar 22 Python
Python 正则表达式匹配字符串中的http链接方法
Dec 25 Python
在Pycharm中对代码进行注释和缩进的方法详解
Jan 20 Python
python pexpect ssh 远程登录服务器的方法
Feb 14 Python
python flask框架实现重定向功能示例
Jul 02 Python
使用Python爬虫库requests发送表单数据和JSON数据
Jan 25 Python
python利用百度云接口实现车牌识别的示例
Feb 21 Python
Python3.7.0 Shell添加清屏快捷键的实现示例
Mar 23 Python
python如何删除列为空的行
Jul 17 Python
python 调用API接口 获取和解析 Json数据
Sep 28 Python
如何利用Python识别图片中的文字
May 31 #Python
Python模拟登入的N种方式(建议收藏)
May 31 #Python
Python多线程正确用法实例解析
May 30 #Python
PyQt5实现简单的计算器
May 30 #Python
PyQt5实现登录页面
May 30 #Python
Python网页解析器使用实例详解
May 30 #Python
PyQt5实现画布小程序
May 30 #Python
You might like
escape unescape的php下的实现方法
2007/04/27 PHP
使用PHP curl模拟浏览器抓取网站信息
2013/10/28 PHP
PHP与SQL语句写一句话木马总结
2019/10/11 PHP
用javascript实现页面打印的三种方法
2007/03/05 Javascript
JavaScript常用的弹出广告及背投广告实现方法
2015/02/06 Javascript
javascript轻量级库createjs使用Easel实现拖拽效果
2016/02/19 Javascript
ionic js 模型 $ionicModal 可以遮住用户主界面的内容框
2016/06/06 Javascript
D3.js实现折线图的方法详解
2016/09/21 Javascript
关于JavaScript中事件绑定的方法总结
2016/10/26 Javascript
JavaScript数据结构链表知识详解
2016/11/21 Javascript
详解nodejs 文本操作模块-fs模块(三)
2016/12/22 NodeJs
Angular的$http与$location
2016/12/26 Javascript
微信小程序  checkbox组件详解及简单实例
2017/01/10 Javascript
ES6下React组件的写法示例代码
2017/05/04 Javascript
vue-router 组件复用问题详解
2018/01/22 Javascript
ES6与CommonJS中的模块处理的区别
2018/06/13 Javascript
小程序视频列表中视频的播放与停止的示例代码
2018/07/20 Javascript
在小程序开发中使用npm的方法
2018/10/17 Javascript
利用hasOwnProperty给数组去重的面试题分享
2018/11/05 Javascript
JavaScript实现动态生成表格
2020/08/02 Javascript
在antd Table中插入可编辑的单元格实例
2020/10/28 Javascript
python批量修改文件后缀示例代码分享
2013/12/24 Python
python3库numpy数组属性的查看方法
2018/04/17 Python
pygame实现简易飞机大战
2018/09/11 Python
Python3 socket即时通讯脚本实现代码实例(threading多线程)
2020/06/01 Python
解决pytorch多GPU训练保存的模型,在单GPU环境下加载出错问题
2020/06/23 Python
网易微博Web App用HTML5开发的过程介绍
2012/06/13 HTML / CSS
YesStyle美国/全球:购买亚洲时装、美容化妆品和生活百货
2017/01/16 全球购物
国外软件测试工程师面试题
2016/12/09 面试题
英语专业个人求职自荐信
2013/09/21 职场文书
英语课前三分钟演讲稿
2014/08/19 职场文书
群众路线查摆问题整改措施思想汇报
2014/10/10 职场文书
详解Laravel制作API接口
2021/05/31 PHP
js 数组 fill() 填充方法
2021/11/02 Javascript
Nginx 路由转发和反向代理location配置实现
2021/11/11 Servers
postman中form-data、x-www-form-urlencoded、raw、binary的区别介绍
2022/01/18 HTML / CSS