编程 Python

Python3爬虫学习之将爬取的信息保存到本地的方法详解

Posted in Python onDecember 12, 2018

本文实例讲述了Python3爬虫学习之将爬取的信息保存到本地的方法。分享给大家供大家参考，具体如下：

将爬取的信息存储到本地

之前我们都是将爬取的数据直接打印到了控制台上，这样显然不利于我们对数据的分析利用，也不利于保存，所以现在就来看一下如何将爬取的数据存储到本地硬盘。

1 对.txt文件的操作

读写文件是最常见的操作之一，python3 内置了读写文件的函数：open

open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None))
Open file and return a corresponding file object. If the file cannot be opened, an OSError
is raised.

其中比较常用的参数为file和mode，参数file为文件的路径，参数mode为操作文件的方式（读/写），函数的返回值为一个file对象，如果文件操作出现异常的话，则会抛出一个OSError

还以简书首页文章题目为例，将爬取到的文章标题存放到一个.txt文件中，具体代码如下：

# -*- coding:utf-8 -*-
from urllib import request
from bs4 import BeautifulSoup
url = r'http://www.jianshu.com'
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url, headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')
soup = BeautifulSoup(page_info, 'html.parser')
titles = soup.find_all('a', 'title')
try:
  # 在E盘以只写的方式打开/创建一个名为 titles 的txt文件
  file = open(r'E:\titles.txt', 'w')
  for title in titles:
  # 将爬去到的文章题目写入txt中
    file.write(title.string + '\n')
finally:
  if file:
    # 关闭文件（很重要）
    file.close()

open中mode参数的含义见下表：

符号	含义
r'	以只读模式打开文件（默认模式）
w'	以只写的方式打开文件，如果文件存在的话会先删除再重新创建
x'	以独占的方式打开文件，如果文件已经存在则错误
a'	以写的形式打开文件，若文件已存在，则以追加的方式写入
b'	二进制模式
t'	文本模式（默认）
+'	更新文件（读/写）

其中't'为默认模式，'r'相当于'rt',符号可以叠加使用，像'r+b'

另外，对文件操作一定要注意的一点是：打开的文件一定要关闭，否则会占用相当大的系统资源，所以对文件的操作最好使用try:...finally:...的形式。但是try:...finally:...的形式会使代码显得比较杂乱，所幸python中的with语句可以帮我们自动调用close（）而不需要我们写出来，所以，上面代码中的try:...finally:...可使用下面的with语句来代替：

with open(r'E:\title.txt', 'w') as file:
  for title in titles:
    file.write(title.string + '\n')

效果是一样的，建议使用with语句

Python3爬虫学习之将爬取的信息保存到本地的方法详解

2 图片的储存

有时候我们的爬虫不一定只是爬取文本数据，也会爬取一些图片，下面就来看怎么将爬取的图片存到本地磁盘。

我们先来选好目标，知乎话题：女生怎么健身锻造好身材？ (单纯因为图多，不要多想哦（# _ # ) ）

看下页面的源代码，找到话题下图片链接的格式，如图：

Python3爬虫学习之将爬取的信息保存到本地的方法详解

可以看到，图片在img标签中，且class=origin_image zh-lightbox-thumb，而且链接是由.jpg结尾，我们便可以用Beautiful Soup结合正则表达式的方式来提取所有链接，如下:

links = soup.find_all('img', "origin_image zh-lightbox-thumb",src=re.compile(r'.jpg$'))

提取出所有链接后，使用request.urlretrieve来将所有链接保存到本地

Copy a network object denoted by a URL to a local file. If the URL points to a local file, the object will not be copied unless filename is supplied. Return a tuple (filename, headers)
where filename is the local file name under which the object can be found, and headers is whatever the info()
method of the object returned by urlopen()
returned (for a remote object). Exceptions are the same as for urlopen()
.

具体实现代码如下：

# -*- coding:utf-8 -*-
import time
from urllib import request
from bs4 import BeautifulSoup
import re
url = r'https://www.zhihu.com/question/22918070'
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
page = request.Request(url, headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')
soup = BeautifulSoup(page_info, 'html.parser')
# Beautiful Soup和正则表达式结合，提取出所有图片的链接（img标签中，class=**，以.jpg结尾的链接）
links = soup.find_all('img', "origin_image zh-lightbox-thumb",src=re.compile(r'.jpg$'))
# 设置保存的路径，否则会保存到程序当前路径
local_path = r'E:\Pic'
for link in links:
  print(link.attrs['src'])
  # 保存链接并命名，time防止命名冲突
  request.urlretrieve(link.attrs['src'], local_path+r'\%s.jpg' % time.time())

运行结果

Python3爬虫学习之将爬取的信息保存到本地的方法详解

PS：希望大家进行图片爬取的时候，尽量不要将爬下来图片作为商用，特别是摄影作品，都是具有版权的，嗯。。。还有就是注意营养哦~~~

更多关于Python相关内容可查看本站专题：《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python3爬虫学习之将爬取的信息保存到本地的方法详解

- Author -

Veniendeavor

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python中还原JavaScript的escape函数编码后字符串的方法

Aug 22 Python

python检查序列seq是否含有aset中项的方法

Jun 30 Python

谈谈Python进行验证码识别的一些想法

Jan 25 Python

Python打包可执行文件的方法详解

Sep 19 Python

python得到一个excel的全部sheet标签值方法

Dec 10 Python

详解用Python练习画个美队盾牌

Mar 23 Python

Pytorch抽取网络层的Feature Map(Vgg)实例

Aug 20 Python

一文了解python 3 字符串格式化 F-string 用法

Mar 04 Python

keras.utils.to_categorical和one hot格式解析

Jul 02 Python

实例讲解Python 迭代器与生成器

Jul 08 Python

Expected conditions模块使用方法汇总代码解析

Aug 13 Python

有趣的二维码：使用MyQR和qrcode来制作二维码

May 10 Python

对python制作自己的数据集实例讲解

Dec 12 #Python

Python3爬虫学习之爬虫利器Beautiful Soup用法分析

Dec 12 #Python

Python解决线性代数问题之矩阵的初等变换方法

Dec 12 #Python

对python数据切割归并算法的实例讲解

Dec 12 #Python

python实现文本界面网络聊天室

Dec 12 #Python

Python3爬虫学习之应对网站反爬虫机制的方法分析

Dec 12 #Python

python实现简单多人聊天室

Dec 11 #Python

You might like

用libTemplate实现静态网页的生成

2006/10/09 PHP

《PHP编程最快明白》第五讲：php目录、文件操作

2010/11/01 PHP

ThinkPHP 防止表单重复提交的方法

2011/08/08 PHP

利用curl 多线程模拟并发的详解

2013/06/14 PHP

PHP编程中的常见漏洞和代码实例

2014/08/06 PHP

php实现的统计字数函数定义与使用示例

2017/07/26 PHP

JQuery 学习笔记选择器之五

2009/07/23 Javascript

JQuery this 和 $(this) 的区别

2009/08/23 Javascript

js日期联动示例

2014/05/02 Javascript

js获取UserControl内容为拼html时提供方便

2014/11/02 Javascript

基于JS实现导航条之调用网页助手小精灵的方法

2016/06/17 Javascript

Google 地图获取API Key详细教程

2016/08/06 Javascript

AngularJS深入探讨scope，继承结构，事件系统和生命周期

2016/11/02 Javascript

JS实现动态修改table及合并单元格的方法示例

2017/02/20 Javascript

使用JavaScriptCore实现OC和JS交互详解

2017/03/28 Javascript

9种改善AngularJS性能的方法

2017/11/28 Javascript

不到200行 JavaScript 代码实现富文本编辑器的方法

2018/01/03 Javascript

express+mockjs实现模拟后台数据发送功能

2018/01/07 Javascript

js实现无限瀑布流实例方法

2019/09/16 Javascript

vue数据响应式原理知识点总结

2020/02/16 Javascript

Vue toFixed保留两位小数的3种方式

2020/10/23 Javascript

[02:51]2014DOTA2 TI小组赛总结中国军团全部进军钥匙球馆

2014/07/15 DOTA

[38:44]DOTA2上海特级锦标赛A组小组赛#2 Secret VS CDEC第二局

2016/02/25 DOTA

[01:15:12]DOTA2上海特级锦标赛主赛事日 - 1 败者组第一轮#4Newbee VS CDEC

2016/03/03 DOTA

Python使用matplotlib绘制动画的方法

2015/05/20 Python

浅谈Python 对象内存占用

2016/07/15 Python

Python实现查看系统启动项功能示例

2018/05/10 Python

Python中的单继承与多继承实例分析

2018/05/10 Python

Python连接Hadoop数据中遇到的各种坑(汇总)

2020/04/14 Python

Python使用eval函数执行动态标表达式过程详解

2020/10/17 Python

学校办公室主任职责

2013/12/27 职场文书

监督检查工作方案

2014/05/28 职场文书

党的群众路线教育实践活动个人批评与自我批评

2014/10/16 职场文书

个人收入证明格式

2015/06/24 职场文书

2015小学新教师个人工作总结

2015/10/14 职场文书

MySQL删除和插入数据很慢的问题解决

2021/06/03 MySQL