Python爬取数据保存为Json格式的代码示例


Posted in Python onApril 09, 2019

python爬取数据保存为Json格式

代码如下:

#encoding:'utf-8'
import urllib.request
from bs4 import BeautifulSoup
import os
import time
import codecs
import json
#找到网址
def getDatas():
  # 伪装
  header={'User-Agent':"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11"}
  # url="https://movie.douban.com/top250"
  url="file:///E:/scrapy/2018-04-27/movie/movie.html"
  ret=urllib.request.Request(url=url,headers=header)
  # 打开网页
  res=urllib.request.urlopen(ret)
  # 转化格式
  response=BeautifulSoup(res,'html.parser')
  # 找到想要数据的父元素
  datas=response.find_all('div',{'class':'item'})
  # print(datas)
  #创建存放数据的文件夹
  folder_name="output"
  if not os.path.exists(folder_name):
      os.mkdir(folder_name)
  # 定义文件
  current_time=time.strftime('%Y-%m-%d',time.localtime())
  file_name="move"+current_time+".json"
  # 文件路径
  file_path=folder_name+"/"+file_name
  for item in datas:
    # print(item)
    dict1={}
    dict1['rank']=item.find('div',{'class':'pic'}).find('em').get_text()
    dict1['title']=item.find('div',{'class':'info'}).find('div',{'class':'hd'}).find('a').find('span',{'class':'title'}).get_text()
    dict1['picUrl']=item.find('div',{'class':'pic'}).find('a').find('img').get('src')
    # print(picUrl)
    # 保存数据为json格式
    try:
      with codecs.open(file_path,'a',encoding="utf-8") as fp:
        fp.write(json.dumps(dict1,ensure_ascii=False)+",\n")
    except IOError as err:
      print('error'+str(err))
    finally:
      fp.close()
  pass
getDatas()
# 爬取数据

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python实现rest请求api示例
Apr 22 Python
python实现基于两张图片生成圆角图标效果的方法
Mar 26 Python
详细解析Python中的变量的数据类型
May 13 Python
python getopt详解及简单实例
Dec 30 Python
Python实现PS图像抽象画风效果的方法
Jan 23 Python
python 矩阵增加一行或一列的实例
Apr 04 Python
详解Python3中setuptools、Pip安装教程
Jun 18 Python
复化梯形求积分实例——用Python进行数值计算
Nov 20 Python
Python实现图片添加文字
Nov 26 Python
Python with标签使用方法解析
Jan 17 Python
Windows下Anaconda和PyCharm的安装与使用详解
Apr 23 Python
完美解决TensorFlow和Keras大数据量内存溢出的问题
Jul 03 Python
python实现QQ空间自动点赞功能
Apr 09 #Python
Python实现的多进程拷贝文件并显示百分比功能示例
Apr 09 #Python
Python使用crontab模块设置和清除定时任务操作详解
Apr 09 #Python
Python实现的读取文件内容并写入其他文件操作示例
Apr 09 #Python
Python实现根据日期获取当天凌晨时间戳的方法示例
Apr 09 #Python
Python匿名函数及应用示例
Apr 09 #Python
用Python中的turtle模块画图两只小羊方法
Apr 09 #Python
You might like
PHP4和PHP5共存于一系统
2006/11/17 PHP
PHP file_exists问题杂谈
2012/05/07 PHP
php实现有趣的人品测试程序实例
2015/06/08 PHP
PHP判断json格式是否正确的实现代码
2017/09/20 PHP
深入理解JavaScript系列(9) 根本没有“JSON对象”这回事!
2012/01/15 Javascript
jquery.post用法示例代码
2014/01/03 Javascript
jquery分页插件jquery.pagination.js使用方法解析
2016/04/01 Javascript
JS 面向对象之继承---多种组合继承详解
2016/07/10 Javascript
Jquery组件easyUi实现选项卡切换示例
2016/08/23 Javascript
Node.js开发教程之基于OnceIO框架实现文件上传和验证功能
2016/11/30 Javascript
Vue概念及常见命令介绍(1)
2016/12/08 Javascript
JS实现的样式切换功能tableCSS实例
2016/12/30 Javascript
使用jQuery操作DOM的方法小结
2017/02/27 Javascript
jQuery之动画ajax事件(实例讲解)
2017/07/18 jQuery
在vue-cli中组件通信的方法
2017/12/16 Javascript
vue里input根据value改变背景色的实例
2018/09/29 Javascript
深入解析koa之中间件流程控制
2019/06/17 Javascript
vant自定义二级菜单操作
2020/11/02 Javascript
[02:52]DOTA2新手基础教程 米波
2014/01/21 DOTA
[01:35]2018完美盛典章节片——共竞
2018/12/17 DOTA
Python中index()和seek()的用法(详解)
2017/04/27 Python
详解用python实现简单的遗传算法
2018/01/02 Python
TensorFlow实现iris数据集线性回归
2018/09/07 Python
Python 做曲线拟合和求积分的方法
2018/12/29 Python
Python比较配置文件的方法实例详解
2019/06/06 Python
Python BeautifulSoup [解决方法] TypeError: list indices must be integers or slices, not str
2019/08/07 Python
有关HTML5页面在iPhoneX适配问题
2017/11/13 HTML / CSS
美国高端医师级美容产品电商:BeautifiedYou.com
2017/04/17 全球购物
美国杰西潘尼官网:JCPenney
2019/06/12 全球购物
YBF Beauty官网:美丽挚友,美国知名彩妆品牌
2020/11/22 全球购物
递归实现回文判断(如:abcdedbca就是回文,判断一个面试者对递归理解的简单程序)
2013/04/28 面试题
硅酸盐工业控制专业应届生求职信
2013/11/02 职场文书
庆八一活动方案
2014/01/25 职场文书
师德师风自查材料
2014/10/14 职场文书
解决Golang中ResponseWriter的一个坑
2021/04/27 Golang
python工具dtreeviz决策树可视化和模型可解释性
2022/03/03 Python