python数据爬下来保存的位置


Posted in Python onFebruary 17, 2020

昨天下班后忽然兴起想写一个爬虫抓抓网页上的东西。花了一个钟简单学习了python的基础语法,然后参照网上的例子自己写了个爬虫。

python数据爬下来保存在本地,一般是文件或数据库中,但是文件形式相比要更加简单,如果只是自己写爬虫玩,可以用文件形式来保存数据。

#coding=utf-8
import urllib.request
import re
import os
 
'''
Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据
urlopen 方法用来打开一个url
read方法 用于读取Url上的数据
'''
 
def getHtml(url):
  page = urllib.request.urlopen(url);
  html = page.read();
  return html;
 
def getImg(html):
  imglist = re.findall('img src="(http.*?)"',html
  return imglist
 
html = getHtml("https://www.zhihu.com/question/34378366").decode("utf-8");
imagesUrl = getImg(html);
 
if os.path.exists("D:/imags") == False:
  os.mkdir("D:/imags");
   
count = 0;
for url in imagesUrl:
  print(url)
  if(url.find('.') != -1):
    name = url[url.find('.',len(url) - 5):];
    bytes = urllib.request.urlopen(url);
    f = open("D:/imags/"+str(count)+name, 'wb');
    f.write(bytes.read());
    f.flush();
    f.close();
    count+=1

经测试,基本功能还是可以实现的。花的较多的时间就是正则匹配哪里,因为自己对正则表达式也不是非常熟悉。所以还是花了点时间。

注:上面的程序基于 python 3.5。python3 和 python2 还是有些区别的。我刚开始看基础语法的时候就栽了一些坑里。

以上就是python数据爬下来保存在哪里的详细内容,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
详解python脚本自动生成需要文件实例代码
Feb 04 Python
python通过http下载文件的方法详解
Jul 26 Python
对Django url的几种使用方式详解
Aug 06 Python
Tensorflow实现在训练好的模型上进行测试
Jan 20 Python
python3实现网页版raspberry pi(树莓派)小车控制
Feb 12 Python
python 控制台单行刷新,多行刷新实例
Feb 19 Python
python中resample函数实现重采样和降采样代码
Feb 25 Python
python数据类型可变不可变知识点总结
Mar 06 Python
Python 如何对文件目录操作
Jul 10 Python
TensorFlow2.0使用keras训练模型的实现
Feb 20 Python
聊聊pytorch测试的时候为何要加上model.eval()
May 23 Python
python_tkinter弹出对话框创建
Mar 20 Python
使用TFRecord存取多个数据案例
Feb 17 #Python
从多个tfrecord文件中无限读取文件的例子
Feb 17 #Python
Python3连接Mysql8.0遇到的问题及处理步骤
Feb 17 #Python
python3连接MySQL8.0的两种方式
Feb 17 #Python
Win10下安装并使用tensorflow-gpu1.8.0+python3.6全过程分析(显卡MX250+CUDA9.0+cudnn)
Feb 17 #Python
Windows下实现将Pascal VOC转化为TFRecords
Feb 17 #Python
tensorflow生成多个tfrecord文件实例
Feb 17 #Python
You might like
php全角字符转换为半角函数
2014/02/07 PHP
php实现压缩合并js的方法【附demo源码下载】
2016/09/22 PHP
PHP中的使用curl发送请求(GET请求和POST请求)
2017/02/08 PHP
关于ThinkPhp 框架表单验证及ajax验证问题
2017/07/19 PHP
php+mysql开发中的经验与常识小结
2019/03/25 PHP
js传值 判断
2006/10/26 Javascript
Extjs学习笔记之二 初识Extjs之Form
2010/01/07 Javascript
从阶乘函数对比Javascript和C#的异同
2012/05/31 Javascript
HTML5+setCutomValidity()函数验证表单实例分享
2015/04/24 Javascript
jQuery简单动画变换效果实例分析
2016/07/04 Javascript
Three.js学习之Lamber材质和Phong材质
2016/08/04 Javascript
原生js获取iframe中dom元素--父子页面相互获取对方dom元素的方法
2016/08/05 Javascript
js 调用百度分享功能
2017/02/27 Javascript
vuex的使用及持久化state的方式详解
2018/01/23 Javascript
使用 Node.js 实现图片的动态裁切及算法实例代码详解
2018/09/29 Javascript
基于Vue实现电商SKU组合算法问题
2019/05/29 Javascript
微信小程序实现简单的select下拉框
2020/11/23 Javascript
JavaScript canvas实现文字时钟
2021/01/10 Javascript
[05:59]2018DOTA2国际邀请赛寻真——只为胜利的Secret
2018/08/13 DOTA
[59:15]完美世界DOTA2联赛PWL S2 LBZS vs FTD.C 第一场 11.20
2020/11/20 DOTA
Python实现的服务器示例小结【单进程、多进程、多线程、非阻塞式】
2019/05/23 Python
python f-string式格式化听语音流程讲解
2019/06/18 Python
Python的matplotlib绘图如何修改背景颜色的实现
2019/07/16 Python
pygame实现成语填空游戏
2019/10/29 Python
Python学习笔记之函数的参数和返回值的使用
2019/11/20 Python
Python中求对数方法总结
2020/03/10 Python
matplotlib 画动态图以及plt.ion()和plt.ioff()的使用详解
2021/01/05 Python
英国最大的汽车配件在线商店:Euro Car Parts
2019/09/30 全球购物
Marc O’Polo俄罗斯官方在线商店:德国高端时尚品牌
2019/12/26 全球购物
夜大毕业生自我评价分享
2013/11/10 职场文书
关于廉洁的广播稿
2014/01/30 职场文书
调解员先进事迹材料
2014/02/07 职场文书
采购部经理岗位职责
2014/02/10 职场文书
市场营销专业大学生职业生涯规划文
2014/03/06 职场文书
马智宇婚礼主持词
2014/03/22 职场文书
乡镇党员干部群众路线对照检查材料思想汇报
2014/09/28 职场文书