Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】


Posted in Python onDecember 05, 2018

本文实例讲述了Python3爬虫爬取百姓网列表并保存为json功能。分享给大家供大家参考,具体如下:

python3爬虫之爬取百姓网列表并保存为json文件。这几天一直在学习使用python3爬取数据,今天记录一下,代码很简单很容易上手。

首先需要安装python3。如果还没有安装,可参考本站python3安装与配置相关文章。

首先需要安装requestslxmljson三个模块

需要手动创建d.json文件

代码

import requests
from lxml import etree
import json
#构造头文件,模拟浏览器访问
url="http://xian.baixing.com/meirongfuwu/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36','referer':url}
response=requests.get(url,headers=headers)
body=response.text #获取网页内容
html=etree.HTML(body,etree.HTMLParser())
gethtml=html.xpath('//div[contains(@class,"media-body-title")]')
# 存储为数组list
jsondata = []
for item in gethtml:
  jsonone={}
  jsonone['title']=item.xpath('.//a[contains(@class,"ad-title")]/text()')[0]
  jsonone['url']=item.xpath('.//a[contains(@class,"ad-title")]/attribute::href')[0]
  jsonone['phone']=item.xpath('.//button[contains(@class,"contact-button")]/attribute::data-contact')[0]
  jsondata.append(jsonone)
# 保存为json
with open("./d.json",'w',encoding='utf-8') as json_file:
  json.dump(jsondata,json_file,ensure_ascii=False)

结果

Python3爬虫爬取百姓网列表并保存为json功能示例【基于request、lxml和json模块】

Python 相关文章推荐
python模拟登录百度代码分享(获取百度贴吧等级)
Dec 27 Python
Python实现将目录中TXT合并成一个大TXT文件的方法
Jul 15 Python
用Python3创建httpServer的简单方法
Jun 04 Python
使用Python正则表达式操作文本数据的方法
May 14 Python
Python叠加两幅栅格图像的实现方法
Jul 05 Python
python 使用装饰器并记录log的示例代码
Jul 12 Python
基于Python检测动态物体颜色过程解析
Dec 04 Python
CentOS7下安装python3.6.8的教程详解
Jan 03 Python
Python爬虫程序架构和运行流程原理解析
Mar 09 Python
Python3爬虫里关于Splash负载均衡配置详解
Jul 10 Python
python获取linux系统信息的三种方法
Oct 14 Python
Python文件的操作示例的详细讲解
Apr 08 Python
python3 实现对图片进行局部切割的方法
Dec 05 #Python
python中强大的format函数实例详解
Dec 05 #Python
python3+opencv3识别图片中的物体并截取的方法
Dec 05 #Python
解决Python3.5+OpenCV3.2读取图像的问题
Dec 05 #Python
Python3实现爬虫爬取赶集网列表功能【基于request和BeautifulSoup模块】
Dec 05 #Python
对python opencv 添加文字 cv2.putText 的各参数介绍
Dec 05 #Python
Python寻找两个有序数组的中位数实例详解
Dec 05 #Python
You might like
PHP数组的交集array_intersect(),array_intersect_assoc(),array_inter_key()函数的小问题
2011/05/29 PHP
php 文件缓存函数
2011/10/08 PHP
php similar_text()函数的定义和用法
2016/05/12 PHP
Ubuntu VPS中wordpress网站打开时提示”建立数据库连接错误”的解决办法
2016/11/03 PHP
PHP实现登陆表单提交CSRF及验证码
2017/01/24 PHP
php的PDO事务处理机制实例分析
2017/02/16 PHP
PHP数组基本用法与知识点总结
2020/06/02 PHP
JS操作iframe里的dom(实例讲解)
2014/01/29 Javascript
Nodejs实战心得之eventproxy模块控制并发
2015/10/27 NodeJs
跟我学习javascript的arguments对象
2015/11/16 Javascript
AngularJS 路由和模板实例及路由地址简化方法(必看)
2016/06/24 Javascript
基于JavaScript实现窗口拖动效果
2017/01/18 Javascript
原生js实现新闻列表展开/收起全文功能
2017/01/20 Javascript
数组Array的排序sort方法
2017/02/17 Javascript
vue项目中实现的微信分享功能示例
2019/01/21 Javascript
js实现鼠标拖拽缩放div实例代码
2019/03/25 Javascript
过滤器vue.filters的使用方法实现
2019/09/18 Javascript
JavaScript回调函数callback用法解析
2020/01/14 Javascript
vue使用echarts画组织结构图
2021/02/06 Vue.js
Python 字符串定义
2009/09/25 Python
python实现基于两张图片生成圆角图标效果的方法
2015/03/26 Python
详解 Python中LEGB和闭包及装饰器
2017/08/03 Python
Python爬虫通过替换http request header来欺骗浏览器实现登录功能
2018/01/07 Python
Django实现celery定时任务过程解析
2020/04/21 Python
html5桌面通知(Web Notifications)实例解析
2014/07/07 HTML / CSS
Giglio德国网上精品店:奢侈品服装和配件
2016/09/23 全球购物
库房主管岗位职责
2013/12/31 职场文书
房地产销售经理岗位职责
2014/01/01 职场文书
大学运动会通讯稿
2014/01/28 职场文书
犯错检讨书
2014/02/21 职场文书
环境建设实施方案
2014/03/14 职场文书
促销活动计划书
2014/05/02 职场文书
软件项目经理岗位职责
2015/04/01 职场文书
职工培训工作总结
2015/08/10 职场文书
开发一个封装iframe的vue组件
2021/03/29 Vue.js
Go语言 go程释放操作(退出/销毁)
2021/04/30 Golang