Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】


Posted in Python onDecember 05, 2018

本文实例讲述了Python3爬虫爬取百姓网列表并保存为json功能。分享给大家供大家参考,具体如下:

python3爬虫之爬取百姓网列表并保存为json文件。这几天一直在学习使用python3爬取数据,今天记录一下,代码很简单很容易上手。

首先需要安装python3。如果还没有安装,可参考本站python3安装与配置相关文章。

首先需要安装requestslxmljson三个模块

需要手动创建d.json文件

代码

import requests
from lxml import etree
import json
#构造头文件,模拟浏览器访问
url="http://xian.baixing.com/meirongfuwu/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36','referer':url}
response=requests.get(url,headers=headers)
body=response.text #获取网页内容
html=etree.HTML(body,etree.HTMLParser())
gethtml=html.xpath('//div[contains(@class,"media-body-title")]')
# 存储为数组list
jsondata = []
for item in gethtml:
  jsonone={}
  jsonone['title']=item.xpath('.//a[contains(@class,"ad-title")]/text()')[0]
  jsonone['url']=item.xpath('.//a[contains(@class,"ad-title")]/attribute::href')[0]
  jsonone['phone']=item.xpath('.//button[contains(@class,"contact-button")]/attribute::data-contact')[0]
  jsondata.append(jsonone)
# 保存为json
with open("./d.json",'w',encoding='utf-8') as json_file:
  json.dump(jsondata,json_file,ensure_ascii=False)

结果

Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】

Python 相关文章推荐
Python中endswith()函数的基本使用
Apr 07 Python
Python实现发送QQ邮件的封装
Jul 14 Python
小米5s微信跳一跳小程序python源码
Jan 08 Python
python numpy 按行归一化的实例
Jan 21 Python
Python 互换字典的键值对实例
Feb 12 Python
Python利用神经网络解决非线性回归问题实例详解
Jul 19 Python
Python 日期区间处理 (本周本月上周上月...)
Aug 08 Python
Python全面分析系统的时域特性和频率域特性
Feb 26 Python
Python接口开发实现步骤详解
Apr 26 Python
django模板获取list中指定索引的值方式
May 14 Python
python 逐步回归算法
Apr 06 Python
python爬取豆瓣电影TOP250数据
May 23 Python
python3 实现对图片进行局部切割的方法
Dec 05 #Python
python中强大的format函数实例详解
Dec 05 #Python
python3+opencv3识别图片中的物体并截取的方法
Dec 05 #Python
解决Python3.5+OpenCV3.2读取图像的问题
Dec 05 #Python
Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】
Dec 05 #Python
对python opencv 添加文字 cv2.putText 的各参数介绍
Dec 05 #Python
Python寻找两个有序数组的中位数实例详解
Dec 05 #Python
You might like
PHP 应用程序的安全 -- 不能违反的四条安全规则
2006/11/26 PHP
php中删除数组的第一个元素和最后一个元素的函数
2015/03/07 PHP
thinkphp框架类库扩展操作示例
2019/11/26 PHP
jquery easyui的tabs使用时的问题
2010/03/23 Javascript
javascript面向对象编程(一) 实例代码
2010/06/25 Javascript
Jquery 自定义动画概述及示例
2013/03/29 Javascript
常用jQuery选择器总结
2014/07/11 Javascript
推荐 21 款优秀的高性能 Node.js 开发框架
2014/08/18 Javascript
jQuery中last()方法用法实例
2015/01/06 Javascript
jQuery实现平滑滚动页面到指定锚点链接的方法
2015/07/15 Javascript
H5移动端适配 Flexible方案
2016/10/24 Javascript
关于Node.js的events.EventEmitter用法介绍
2017/04/01 Javascript
Angular2中监听数据更新的方法
2018/08/31 Javascript
VUE+node(express)实现前后端分离
2019/10/13 Javascript
JS Html转义和反转义(html编码和解码)的实现与使用方法总结
2020/03/10 Javascript
jQuery实现的移动端图片缩放功能组件示例
2020/05/01 jQuery
js仿京东放大镜效果
2020/08/09 Javascript
[00:36]DOTA2上海特级锦标赛 LGD战队宣传片
2016/03/04 DOTA
Python实现根据IP地址和子网掩码算出网段的方法
2015/07/30 Python
Python 通过pip安装Django详细介绍
2017/04/28 Python
神经网络相关之基础概念的讲解
2018/12/29 Python
Python目录和文件处理总结详解
2019/09/02 Python
Python守护进程实现过程详解
2020/02/10 Python
Python sorted对list和dict排序
2020/06/09 Python
Python 程序报错崩溃后如何倒回到崩溃的位置(推荐)
2020/06/23 Python
解决Keras TensorFlow 混编中 trainable=False设置无效问题
2020/06/28 Python
基于python requests selenium爬取excel vba过程解析
2020/08/12 Python
欧缇丽美国官网:Caudalie美国
2016/12/31 全球购物
粉红色的鲸鱼:Vineyard Vines
2018/02/17 全球购物
adidas澳大利亚官方网站:adidas Australia
2018/04/15 全球购物
新学期国旗下演讲稿
2014/05/08 职场文书
班级活动总结格式
2014/08/30 职场文书
北京离婚协议书范文2014
2014/09/29 职场文书
党纪处分决定书
2015/06/24 职场文书
Kubernetes部署实例并配置Deployment、网络映射、副本集
2022/04/01 Servers
详细介绍Next.js脚手架完整搭建封装
2022/04/26 Javascript