Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】


Posted in Python onDecember 05, 2018

本文实例讲述了Python3爬虫爬取百姓网列表并保存为json功能。分享给大家供大家参考,具体如下:

python3爬虫之爬取百姓网列表并保存为json文件。这几天一直在学习使用python3爬取数据,今天记录一下,代码很简单很容易上手。

首先需要安装python3。如果还没有安装,可参考本站python3安装与配置相关文章。

首先需要安装requestslxmljson三个模块

需要手动创建d.json文件

代码

import requests
from lxml import etree
import json
#构造头文件,模拟浏览器访问
url="http://xian.baixing.com/meirongfuwu/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36','referer':url}
response=requests.get(url,headers=headers)
body=response.text #获取网页内容
html=etree.HTML(body,etree.HTMLParser())
gethtml=html.xpath('//div[contains(@class,"media-body-title")]')
# 存储为数组list
jsondata = []
for item in gethtml:
  jsonone={}
  jsonone['title']=item.xpath('.//a[contains(@class,"ad-title")]/text()')[0]
  jsonone['url']=item.xpath('.//a[contains(@class,"ad-title")]/attribute::href')[0]
  jsonone['phone']=item.xpath('.//button[contains(@class,"contact-button")]/attribute::data-contact')[0]
  jsondata.append(jsonone)
# 保存为json
with open("./d.json",'w',encoding='utf-8') as json_file:
  json.dump(jsondata,json_file,ensure_ascii=False)

结果

Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】

Python 相关文章推荐
在Python中处理时间之clock()方法的使用
May 22 Python
简单掌握Python中glob模块查找文件路径的用法
Jul 05 Python
Python利用字典将两个通讯录文本合并为一个文本实例
Jan 16 Python
Python脚本修改阿里云的访问控制列表的方法
Mar 08 Python
使用python来调用CAN通讯的DLL实现方法
Jul 03 Python
Python编译成.so文件进行加密后调用的实现
Dec 23 Python
pytorch模型预测结果与ndarray互转方式
Jan 15 Python
python3爬取torrent种子链接实例
Jan 16 Python
PyCharm 专业版安装图文教程
Feb 20 Python
TensorFlow2.1.0安装过程中setuptools、wrapt等相关错误指南
Apr 08 Python
tensorflow 20:搭网络,导出模型,运行模型的实例
May 26 Python
matplotlib绘制鼠标的十字光标的实现(内置方式)
Jan 06 Python
python3 实现对图片进行局部切割的方法
Dec 05 #Python
python中强大的format函数实例详解
Dec 05 #Python
python3+opencv3识别图片中的物体并截取的方法
Dec 05 #Python
解决Python3.5+OpenCV3.2读取图像的问题
Dec 05 #Python
Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】
Dec 05 #Python
对python opencv 添加文字 cv2.putText 的各参数介绍
Dec 05 #Python
Python寻找两个有序数组的中位数实例详解
Dec 05 #Python
You might like
php实现天干地支计算器示例
2014/03/14 PHP
关于php支持分块与断点续传文件下载功能代码
2014/05/09 PHP
PHP延迟静态绑定示例分享
2014/06/22 PHP
PHP聚合式迭代器接口IteratorAggregate用法分析
2017/12/28 PHP
laravel框架的安装与路由实例分析
2019/10/11 PHP
javascript 获取表单file全路径
2009/12/31 Javascript
jQuery代码优化之基本事件
2011/11/01 Javascript
js加强的经典分页实例
2013/03/15 Javascript
移动Web中图片自适应的两种JavaScript解决方法
2015/06/18 Javascript
angularjs实现搜索的关键字在正文中高亮出来
2017/06/13 Javascript
聊聊那些使用前端Javascript实现的机器学习类库
2017/09/18 Javascript
JS中的多态实例详解
2017/10/15 Javascript
Angular使用Restful的增删改
2018/12/28 Javascript
细说Vue组件的服务器端渲染的过程
2019/05/30 Javascript
JS Math对象与Math方法实例小结
2019/07/05 Javascript
浅谈JavaScript中你可能不知道URL构造函数的属性
2020/07/13 Javascript
python实现的udp协议Server和Client代码实例
2014/06/04 Python
Python学习笔记之While循环用法分析
2019/08/14 Python
Python处理session的方法整理
2019/08/29 Python
Python中包的用法及安装
2020/02/11 Python
基于Python共轭梯度法与最速下降法之间的对比
2020/04/02 Python
Python基于Tkinter编写crc校验工具
2020/05/06 Python
Python 捕获代码中所有异常的方法
2020/08/03 Python
用python进行视频剪辑
2020/11/02 Python
Python 中Operator模块的使用
2021/01/30 Python
泰国综合购物网站:Lazada泰国
2018/04/09 全球购物
如何在Oracle中查看各个表、表空间占用空间的大小
2015/10/31 面试题
幼师专业求职推荐信
2013/11/08 职场文书
大学生简历的个人自我评价
2013/12/04 职场文书
酒店辞职书范文
2015/02/26 职场文书
2015年惩防体系建设工作总结
2015/05/22 职场文书
吴仁宝观后感
2015/06/09 职场文书
医院见习总结
2015/06/24 职场文书
2016年学校安全教育月活动总结
2016/04/06 职场文书
Redis IP地址的绑定的实现
2021/05/08 Redis
SQL使用复合索引实现数据库查询的优化
2022/05/25 SQL Server