python数据爬下来保存的位置


Posted in Python onFebruary 17, 2020

昨天下班后忽然兴起想写一个爬虫抓抓网页上的东西。花了一个钟简单学习了python的基础语法,然后参照网上的例子自己写了个爬虫。

python数据爬下来保存在本地,一般是文件或数据库中,但是文件形式相比要更加简单,如果只是自己写爬虫玩,可以用文件形式来保存数据。

#coding=utf-8
import urllib.request
import re
import os
 
'''
Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据
urlopen 方法用来打开一个url
read方法 用于读取Url上的数据
'''
 
def getHtml(url):
  page = urllib.request.urlopen(url);
  html = page.read();
  return html;
 
def getImg(html):
  imglist = re.findall('img src="(http.*?)"',html
  return imglist
 
html = getHtml("https://www.zhihu.com/question/34378366").decode("utf-8");
imagesUrl = getImg(html);
 
if os.path.exists("D:/imags") == False:
  os.mkdir("D:/imags");
   
count = 0;
for url in imagesUrl:
  print(url)
  if(url.find('.') != -1):
    name = url[url.find('.',len(url) - 5):];
    bytes = urllib.request.urlopen(url);
    f = open("D:/imags/"+str(count)+name, 'wb');
    f.write(bytes.read());
    f.flush();
    f.close();
    count+=1

经测试,基本功能还是可以实现的。花的较多的时间就是正则匹配哪里,因为自己对正则表达式也不是非常熟悉。所以还是花了点时间。

注:上面的程序基于 python 3.5。python3 和 python2 还是有些区别的。我刚开始看基础语法的时候就栽了一些坑里。

以上就是python数据爬下来保存在哪里的详细内容,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
python编写的最短路径算法
Mar 25 Python
Python爬虫天气预报实例详解(小白入门)
Jan 24 Python
Django中间件工作流程及写法实例代码
Feb 06 Python
python实现读Excel写入.txt的方法
Apr 29 Python
Flask框架Jinjia模板常用语法总结
Jul 19 Python
python3.6.3安装图文教程 TensorFlow安装配置方法
Jun 24 Python
python操作文件的参数整理
Jun 11 Python
详解如何在cmd命令窗口中搭建简单的python开发环境
Aug 29 Python
Python + Flask 实现简单的验证码系统
Oct 01 Python
python 实现生成均匀分布的点
Dec 05 Python
pyqt5数据库使用详细教程(打包解决方案)
Mar 25 Python
分享一枚pycharm激活码适用所有pycharm版本我的pycharm2020.2.3激活成功
Nov 20 Python
使用TFRecord存取多个数据案例
Feb 17 #Python
从多个tfrecord文件中无限读取文件的例子
Feb 17 #Python
Python3连接Mysql8.0遇到的问题及处理步骤
Feb 17 #Python
python3连接MySQL8.0的两种方式
Feb 17 #Python
Win10下安装并使用tensorflow-gpu1.8.0+python3.6全过程分析(显卡MX250+CUDA9.0+cudnn)
Feb 17 #Python
Windows下实现将Pascal VOC转化为TFRecords
Feb 17 #Python
tensorflow生成多个tfrecord文件实例
Feb 17 #Python
You might like
main.php
2006/12/09 PHP
linux使用crontab实现PHP执行计划定时任务
2014/05/10 PHP
php实现的顺序线性表示例
2019/05/04 PHP
laravel框架学习笔记之组件化开发实现方法
2020/02/01 PHP
jQuery 使用手册(六)
2009/09/23 Javascript
判断某个字符在一个字符串中是否存在的js代码
2014/02/28 Javascript
Javascript中call和apply函数的比较和使用实例
2015/02/03 Javascript
jquery中EasyUI实现异步树
2015/03/01 Javascript
通过jquery-ui中的sortable来实现拖拽排序的简单实例
2016/05/24 Javascript
jQuery实现div横向拖拽排序的简单实例
2016/07/13 Javascript
分享jQuery封装好的一些常用操作
2016/07/28 Javascript
关于javascript的一些知识以及循环详解
2016/09/12 Javascript
JS遍历对象属性的方法示例
2017/01/10 Javascript
setTimeout学习小结
2017/02/08 Javascript
一文让你彻底搞清楚javascript中的require、import与export
2017/09/24 Javascript
jQuery niceScroll滚动条错位问题的解决方法
2018/02/03 jQuery
vue中的watch监听数据变化及watch中各属性的详解
2018/09/11 Javascript
在node中使用jwt签发与验证token的方法
2019/04/03 Javascript
Vue+Express实现登录状态权限验证的示例代码
2019/05/05 Javascript
vuejs+element UI table表格中实现禁用部分复选框的方法
2019/09/20 Javascript
webpack4 optimization使用总结
2019/11/10 Javascript
[00:32]2018DOTA2亚洲邀请赛出场——VP
2018/04/04 DOTA
[02:11]完美世界DOTA2联赛10月28日赛事精彩集锦:来吧展示实力强劲
2020/10/29 DOTA
python访问mysql数据库的实现方法(2则示例)
2016/01/06 Python
Python语言的面相对象编程方式初步学习
2016/03/12 Python
Tensorflow 自带可视化Tensorboard使用方法(附项目代码)
2018/02/10 Python
Centos7 Python3下安装scrapy的详细步骤
2018/03/15 Python
Python实现的列表排序、反转操作示例
2019/03/13 Python
css3 media 响应式布局的简单实例
2016/08/03 HTML / CSS
HTML5 Canvas入门学习教程
2016/03/17 HTML / CSS
纯净、自信、100%的羊绒服装:360Cashmere
2021/02/20 全球购物
应届大专毕业生个人自荐信
2013/09/22 职场文书
优秀团员个人的自我评价
2013/10/02 职场文书
学生拾金不昧表扬信
2014/01/21 职场文书
农村老人去世追悼词
2015/06/23 职场文书
div与span之间的区别与使用介绍
2021/12/06 HTML / CSS