编程 Python

python爬虫爬取某站上海租房图片

Posted in Python onFebruary 04, 2018

对于一个net开发这爬虫真真的以前没有写过。这段时间开始学习python爬虫，今天周末无聊写了一段代码爬取上海租房图片，其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup。python 版本：python3.6 ,IDE ：pycharm。其实就几行代码，但希望没有开发基础的人也能一下子看明白，所以大神请绕行。

第三方库首先安装

我是用的pycharm所以另为的脚本安装我这就不介绍了。

python爬虫爬取某站上海租房图片

如上图打开默认设置选择Project Interprecter，双击pip或者点击加号，搜索要安装的第三方库。其中如果建立的项目多记得Project Interprecter要选择正确的安装位置不然无法导入。

Requests库

requests库的官方定义：Requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用。其实他就是请求网络获取网页数据的。

import requests
header={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
res=requests.get('http://sh.58.com/zufang/',headers=header)
try:
  print(res.text);
except ConnectionError:
  print('访问被拒绝！！！')

结果如下：

python爬虫爬取某站上海租房图片

其中Request Headers的参数如下：

python爬虫爬取某站上海租房图片

#headers的一些属性：
#Accept:指定客户端能够接收的内容类型，内容类型的先后次序表示客户都接收的先后次序
#Accept-Lanuage:指定HTTP客户端浏览器用来展示返回信息优先选择的语言
#Accept-Encoding指定客户端浏览器可以支持的web服务器返回内容压缩编码类型。表示允许服务器在将输出内容发送到客户端以前进行压缩，以节约带宽。而这里设置的就是客户端浏览器所能够支持的返回压缩格式。
#Accept-Charset:HTTP客户端浏览器可以接受的字符编码集
# User-Agent : 有些服务器或 Proxy 会通过该值来判断是否是浏览器发出的请求
# Content-Type : 在使用 REST 接口时，服务器会检查该值，用来确定 HTTP Body 中的内容该怎样解析。
# application/xml ： 在 XML RPC，如 RESTful/SOAP 调用时使用
# application/json ： 在 JSON RPC 调用时使用
# application/x-www-form-urlencoded ： 浏览器提交 Web 表单时使用
# 在使用服务器提供的 RESTful 或 SOAP 服务时， Content-Type 设置错误会导致服务器拒绝服务

BeautifulSoup库

BeautifulSoup可以轻松的解析Requests库请求的页面，并把页面源代码解析为Soup文档，一边过滤提取数据。这是bs4.2的文档。

Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，其中lxml 据说是相对而言比较强大的我下面的暗示是python 标准库的。

python爬虫爬取某站上海租房图片

选择器select

# 选择所有div标签
soup.select("div")
# 选择所有p标签中的第三个标签
soup.select("p:nth-of-type(3)")
相当于soup.select(p)[2]
# 选择div标签下的所有img标签
soup.select("div img")
# 选择div标签下的直接a子标签
soup.select("div > a")
# 选择id=link1后的所有兄弟节点标签
soup.select("#link1 ~ .mybro")
# 选择id=link1后的下一个兄弟节点标签
soup.select("#link1 + .mybro")
# 选择a标签，其类属性为className的标签
soup.select("a .className")
# 选择a标签，其id属性为idName的标签
soup.select("a #idName")
# 选择a标签，其属性中存在attrName的所有标签
soup.select("a[attrName]")
# 选择a标签，其属性href=http://wangyanling.com的所有标签
soup.select("a[href='http://wangyanling.com']")
# 选择a标签，其href属性以http开头
soup.select('a[href^="http"]')
# 选择a标签，其href属性以lacie结尾
soup.select('a[href$="lacie"]')
# 选择a标签，其href属性包含.com
soup.select('a[href*=".com"]')
# 从html中排除某标签，此时soup中不再有script标签
[s.extract() for s in soup('script')]
# 如果想排除多个呢
[s.extract() for s in soup(['script','fram']

BeautifulSoup库需要学习的知识点，请参考bs4.2的文档。在这不再过多叙述。

import requests
from bs4 import BeautifulSoup
header={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
res=requests.get('http://cd.58.com/zufang/',headers=header)
soup=BeautifulSoup(res.text,'html.parser')
print(soup.prettify())

案例：爬取上海租房图片

import requests
import urllib.request
import os
import time
from bs4 import BeautifulSoup
header={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36'}
url=['http://sh.58.com/zufang/pn{}/?ClickID=2'.format(number) for number in range(6,51)]#分页抓取
adminCout=6
for arurl in url:
  adminCout=adminCout+1
  res=requests.get(arurl,headers=header)
  soup=BeautifulSoup(res.text,'html.parser')
  arryImg=soup.select('.img_list img')
  print(arryImg)
  count = 0;
  for img in arryImg:
    print(img['lazy_src'])
    _url = img['lazy_src']
    pathName = "E:\\2333\\" + str(adminCout)+"_"+str(count) + ".jpg" # 设置路径和文件名
    result = urllib.request.urlopen(_url) # 打开链接，和python2.x不同请注意了
    data = result.read() # 否则开始下载到本地
    with open(pathName, "wb") as code:
      code.write(data)
      code.close()
      count = count + 1 # 计数+1
      print("正在下载第：", count)
    time.sleep(30)

只是实现功能，至于代码结果如下：

python爬虫爬取某站上海租房图片

结语：

对于python并非为了从net跳出来，学习python只是感兴趣，但是通过这段时间的学习确实有些思想从net的思路中跳了出来，接下来一年的业余时间应该都会花在学习python上，还希望自己能坚持下去。这应该是2017年最后一篇文章，在这给大家拜个早年。

python爬虫爬取某站上海租房图片

- Author -

laozhang

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

利用python批量给云主机配置安全组的方法教程

Jun 21 Python

使用python编写简单的小程序编译成exe跑在win10上

Jan 15 Python

python中的闭包函数

Feb 09 Python

python 检查是否为中文字符串的方法

Dec 28 Python

Python根据当前日期取去年同星期日期

Apr 14 Python

python函数的作用域及关键字详解

Aug 20 Python

python列表的逆序遍历实现

Apr 20 Python

win10从零安装配置pytorch全过程图文详解

May 08 Python

Python OrderedDict字典排序方法详解

May 21 Python

python合并多个excel文件的示例

Sep 23 Python

python开发一个解析protobuf文件的简单编译器

Nov 17 Python

python基于tkinter制作下班倒计时工具

Apr 28 Python

Python爬虫实现百度图片自动下载

Feb 04 #Python

Python中的defaultdict与__missing__()使用介绍

Feb 03 #Python

Python网络爬虫神器PyQuery的基本使用教程

Feb 03 #Python

numpy.random.seed()的使用实例解析

Feb 03 #Python

Python网络爬虫中的同步与异步示例详解

Feb 03 #Python

Python模块文件结构代码详解

Feb 03 #Python

Python处理文本换行符实例代码

Feb 03 #Python

You might like

一个简单的自动发送邮件系统(三)

2006/10/09 PHP

比较简单实用的PHP无限分类源码分享(思路不错)

2011/10/13 PHP

shopex主机报错误请求解决方案(No such file or directory)

2011/12/27 PHP

PHP超级全局变量数组小结

2012/10/04 PHP

WordPress中获取页面链接和标题的相关PHP函数用法解析

2015/12/17 PHP

php语言的7种基本的排序方法

2020/12/28 PHP

使用prototype.js 的时候应该特别注意的几个问题.

2007/04/12 Javascript

Javascript 判断Flash是否加载完成的代码

2010/04/12 Javascript

深入分析js中的constructor和prototype

2012/04/07 Javascript

jQuery动态地获取系统时间实现代码

2013/05/24 Javascript

jquery实现带复选框的表格行选中删除时高亮显示

2013/08/01 Javascript

解析img图片没找到onerror事件 Stack overflow at line: 0

2013/12/23 Javascript

ztree获取当前选中节点子节点id集合的方法

2015/02/12 Javascript

JavaScript动态数量的文件上传控件

2016/11/18 Javascript

以BootStrap Tab为例写一个前端组件

2017/07/25 Javascript

JS 中document.write()的用法和清空的原因浅析

2017/12/04 Javascript

JavaScript实现新年倒计时效果

2018/11/17 Javascript

关于Vue源码vm.$watch()内部原理详解

2019/04/26 Javascript

JavaScript获取页面元素的常用方法详解

2019/09/28 Javascript

加速vue组件渲染之性能优化

2020/04/09 Javascript

Javascript Symbol原理及使用方法解析

2020/10/22 Javascript

Python基础入门之seed()方法的使用

2015/05/15 Python

python 两种方法删除空文件夹

2020/09/29 Python

python 自动识别并连接串口的实现

2021/01/19 Python

基于HTML5 audio元素播放声音jQuery小插件

2011/05/11 HTML / CSS

美国护肤咨询及美容产品电商：Askderm

2017/02/24 全球购物

赫里福德的一家乡村零售商店：Philip Morris & Son

2017/06/25 全球购物

欧尚俄罗斯网上超市：Auchan俄罗斯

2018/05/03 全球购物

全球才华横溢工匠的家居装饰、珠宝和礼物：NOVICA

2021/01/22 全球购物

这段代码难道不该打印出56吗

2013/02/27 面试题

2014年电厂个人工作总结

2014/11/27 职场文书

党员示范岗材料

2014/12/19 职场文书

2015年政务公开工作总结

2015/05/19 职场文书

2015年为民办实事工作总结

2015/05/26 职场文书

煤矿施工安全协议书

2016/03/22 职场文书

i5-10400f处理相当于i7多少水平

2022/04/19 数码科技