Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题


Posted in Python onFebruary 22, 2021

我们在编写Python爬虫时,有时会遇到网站拒绝访问等反爬手段,比如这么我们想爬取蚂蚁短租数据,它则会提示“当前访问疑似黑客攻击,已被网站管理员设置为拦截”提示,如下图所示。此时我们需要采用设置Cookie来进行爬取,下面我们进行详细介绍。非常感谢我的学生承峰提供的思想,后浪推前浪啊!

一. 网站分析与爬虫拦截

当我们打开蚂蚁短租搜索贵阳市,反馈如下图所示结果。

Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题

我们可以看到短租房信息呈现一定规律分布,如下图所示,这也是我们要爬取的信息。

Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题

通过浏览器审查元素,我们可以看到需要爬取每条租房信息都位于<dd></dd>节点下。

Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题

很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!
QQ群:810735403

在定位房屋名称,如下图所示,位于<div class="room-detail clearfloat"></div>节点下。

Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题

接下来我们写个简单的BeautifulSoup进行爬取。

# -*- coding: utf-8 -*-
import urllib
import re
from bs4 import BeautifulSoup
import codecs
 
url = 'http://www.mayi.com/guiyang/?map=no'
response=urllib.urlopen(url)
contents = response.read()
soup = BeautifulSoup(contents, "html.parser")
print soup.title
print soup
#短租房名称
for tag in soup.find_all('dd'):
 for name in tag.find_all(attrs={"class":"room-detail clearfloat"}):
 fname = name.find('p').get_text()
 print u'[短租房名称]', fname.replace('\n','').strip()

但很遗憾,报错了,说明蚂蚁金服防范措施还是挺到位的。

Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题

二. 设置Cookie的BeautifulSoup爬虫

添加消息头的代码如下所示,这里先给出代码和结果,再教大家如何获取Cookie。

# -*- coding: utf-8 -*-
import urllib2
import re
from bs4 import BeautifulSoup
 
#爬虫函数
def gydzf(url):
 user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"
 headers={"User-Agent":user_agent}
 request=urllib2.Request(url,headers=headers)
 response=urllib2.urlopen(request)
 contents = response.read()
 soup = BeautifulSoup(contents, "html.parser")
 for tag in soup.find_all('dd'):
 #短租房名称
 for name in tag.find_all(attrs={"class":"room-detail clearfloat"}):
 fname = name.find('p').get_text()
 print u'[短租房名称]', fname.replace('\n','').strip()
 #短租房价格
 for price in tag.find_all(attrs={"class":"moy-b"}):
 string = price.find('p').get_text()
 fprice = re.sub("[¥]+".decode("utf8"), "".decode("utf8"),string)
 fprice = fprice[0:5]
 print u'[短租房价格]', fprice.replace('\n','').strip()
 #评分及评论人数
 for score in name.find('ul'):
 fscore = name.find('ul').get_text()
 print u'[短租房评分/评论/居住人数]', fscore.replace('\n','').strip()
 #网页链接url
 url_dzf = tag.find(attrs={"target":"_blank"})
 urls = url_dzf.attrs['href']
 print u'[网页链接]', urls.replace('\n','').strip()
 urlss = 'http://www.mayi.com' + urls + ''
 print urlss
 
#主函数
if __name__ == '__main__':
 i = 1
 while i<10:
 print u'页码', i
 url = 'http://www.mayi.com/guiyang/' + str(i) + '/?map=no'
 gydzf(url)
 i = i+1
 else:
 print u"结束"

输出结果如下图所示:

页码 1
[短租房名称] 大唐东原财富广场--城市简约复式民宿
[短租房价格] 298
[短租房评分/评论/居住人数] 5.0分·5条评论·二居·可住3人
[网页链接] /room/851634765
http://www.mayi.com/room/851634765
[短租房名称] 大唐东原财富广场--清新柠檬复式民宿
[短租房价格] 568
[短租房评分/评论/居住人数] 2条评论·三居·可住6人
[网页链接] /room/851634467
http://www.mayi.com/room/851634467
 
...
 
页码 9
[短租房名称] 【高铁北站公园旁】美式风情+超大舒适安逸
[短租房价格] 366
[短租房评分/评论/居住人数] 3条评论·二居·可住5人
[网页链接] /room/851018852
http://www.mayi.com/room/851018852
[短租房名称] 大营坡(中大国际购物中心附近)北欧小清新三室
[短租房价格] 298
[短租房评分/评论/居住人数] 三居·可住6人
[网页链接] /room/851647045
http://www.mayi.com/room/851647045

Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题

接下来我们想获取详细信息

Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题

这里作者主要是提供分析Cookie的方法,使用浏览器打开网页,右键“检查”,然后再刷新网页。在“NetWork”中找到网页并点击,在弹出来的Headers中就隐藏这这些信息。

Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题

最常见的两个参数是Cookie和User-Agent,如下图所示:

Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题

然后在Python代码中设置这些参数,再调用Urllib2.Request()提交请求即可,核心代码如下:

user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) ... Chrome/61.0.3163.100 Safari/537.36"
 cookie="mediav=%7B%22eid%22%3A%22387123...b3574ef2-21b9-11e8-b39c-1bc4029c43b8"
 headers={"User-Agent":user_agent,"Cookie":cookie}
 request=urllib2.Request(url,headers=headers)
 response=urllib2.urlopen(request)
 contents = response.read()
 soup = BeautifulSoup(contents, "html.parser")
 for tag1 in soup.find_all(attrs={"class":"main"}):

注意,每小时Cookie会更新一次,我们需要手动修改Cookie值即可,就是上面代码的cookie变量和user_agent变量。完整代码如下所示:

import urllib2
import re
from bs4 import BeautifulSoup
import codecs
import csv
 
c = open("ycf.csv","wb") #write 写
c.write(codecs.BOM_UTF8)
writer = csv.writer(c)
writer.writerow(["短租房名称","地址","价格","评分","可住人数","人均价格"])
 
#爬取详细信息
def getInfo(url,fname,fprice,fscore,users):
 #通过浏览器开发者模式查看访问使用的user_agent及cookie设置访问头(headers)避免反爬虫,且每隔一段时间运行要根据开发者中的cookie更改代码中的cookie
 user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36"
 cookie="mediav=%7B%22eid%22%3A%22387123%22eb7; mayi_uuid=1582009990674274976491; sid=42200298656434922.85.130.130"
 headers={"User-Agent":user_agent,"Cookie":cookie}
 request=urllib2.Request(url,headers=headers)
 response=urllib2.urlopen(request)
 contents = response.read()
 soup = BeautifulSoup(contents, "html.parser")
 #短租房地址
 for tag1 in soup.find_all(attrs={"class":"main"}):
 print u'短租房地址:'
 for tag2 in tag1.find_all(attrs={"class":"desWord"}):
 address = tag2.find('p').get_text()
 print address
 #可住人数
 print u'可住人数:'
 for tag4 in tag1.find_all(attrs={"class":"w258"}):
 yy = tag4.find('span').get_text()
 print yy
 fname = fname.encode("utf-8")
 address = address.encode("utf-8")
 fprice = fprice.encode("utf-8")
 fscore = fscore.encode("utf-8")
 fpeople = yy[2:3].encode("utf-8")
 ones = int(float(fprice))/int(float(fpeople))
 #存储至本地
 writer.writerow([fname,address,fprice,fscore,fpeople,ones])
 
#爬虫函数
def gydzf(url):
 user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"
 headers={"User-Agent":user_agent}
 request=urllib2.Request(url,headers=headers)
 response=urllib2.urlopen(request)
 contents = response.read()
 soup = BeautifulSoup(contents, "html.parser")
 for tag in soup.find_all('dd'):
 #短租房名称
 for name in tag.find_all(attrs={"class":"room-detail clearfloat"}):
 fname = name.find('p').get_text()
 print u'[短租房名称]', fname.replace('\n','').strip()
 #短租房价格
 for price in tag.find_all(attrs={"class":"moy-b"}):
 string = price.find('p').get_text()
 fprice = re.sub("[¥]+".decode("utf8"), "".decode("utf8"),string)
 fprice = fprice[0:5]
 print u'[短租房价格]', fprice.replace('\n','').strip()
 #评分及评论人数
 for score in name.find('ul'):
 fscore = name.find('ul').get_text()
 print u'[短租房评分/评论/居住人数]', fscore.replace('\n','').strip()
 #网页链接url
 url_dzf = tag.find(attrs={"target":"_blank"})
 urls = url_dzf.attrs['href']
 print u'[网页链接]', urls.replace('\n','').strip()
 urlss = 'http://www.mayi.com' + urls + ''
 print urlss
 getInfo(urlss,fname,fprice,fscore,user_agent)
 
#主函数
if __name__ == '__main__':
 i = 0
 while i<33:
 print u'页码', (i+1)
 if(i==0):
 url = 'http://www.mayi.com/guiyang/?map=no'
 if(i>0):
 num = i+2 #除了第一页是空的,第二页开始按2顺序递增
 url = 'http://www.mayi.com/guiyang/' + str(num) + '/?map=no'
 gydzf(url)
 i=i+1
 
c.close()

输出结果如下,存储本地CSV文件:

Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题

同时,大家可以尝试Selenium爬取蚂蚁短租,应该也是可行的方法。

到此这篇关于Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的文章就介绍到这了,更多相关Python爬虫爬取蚂蚁短租内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python实现对比不同字体中的同一字符的显示效果
Apr 23 Python
Python结巴中文分词工具使用过程中遇到的问题及解决方法
Apr 15 Python
Python模拟鼠标点击实现方法(将通过实例自动化模拟在360浏览器中自动搜索python)
Aug 23 Python
Python3.6简单操作Mysql数据库
Sep 12 Python
python3爬取各类天气信息
Feb 24 Python
Python统计单词出现的次数
Apr 04 Python
Python 3.x基于Xml数据的Http请求方法
Dec 28 Python
解决pycharm工程启动卡住没反应的问题
Jan 19 Python
python项目对接钉钉SDK的实现
Jul 15 Python
Python Numpy 自然数填充数组的实现
Nov 28 Python
Python脚本破解压缩文件口令实例教程(zipfile)
Jun 14 Python
利用django创建一个简易的博客网站的示例
Sep 29 Python
Python爬虫爬取微博热搜保存为 Markdown 文件的源码
Feb 22 #Python
Python爬虫制作翻译程序的示例代码
Feb 22 #Python
Python爬虫爬取ts碎片视频+验证码登录功能
Feb 22 #Python
sklearn中的交叉验证的实现(Cross-Validation)
Feb 22 #Python
Python爬虫分析微博热搜关键词的实现代码
Feb 22 #Python
anaconda升级sklearn版本的实现方法
Feb 22 #Python
详解Python 中的 defaultdict 数据类型
Feb 22 #Python
You might like
基于mysql的bbs设计(一)
2006/10/09 PHP
PHP数据类型的总结分析
2013/06/13 PHP
PHP判断json格式是否正确的实现代码
2017/09/20 PHP
php无限极分类实现方法分析
2019/07/04 PHP
仿163填写邮件地址自动显示下拉(无优化)
2008/11/05 Javascript
nodejs实现的一个简单聊天室功能分享
2014/12/06 NodeJs
jQuery选择器源码解读(三):tokenize方法
2015/03/31 Javascript
jQuery表单验证功能实例
2015/08/28 Javascript
JavaScript中对DOM节点的访问、创建、修改、删除
2015/11/16 Javascript
js操作table元素实现表格行列新增、删除技巧总结
2015/11/18 Javascript
jQuery操作属性和样式详解
2016/04/13 Javascript
了解VUE的render函数的使用
2017/06/08 Javascript
Angular Material Icon使用详解
2018/11/07 Javascript
JS滚轮控制图片缩放大小和拖动的实例代码
2018/11/20 Javascript
layerui代码控制tab选项卡,添加,关闭的实例
2019/09/04 Javascript
JS通用方法触发点击事件代码实例
2020/02/17 Javascript
JavaScript自定义超时API代码实例
2020/04/30 Javascript
javascript实现简单留言板案例
2021/02/09 Javascript
Python自动调用IE打开某个网站的方法
2015/06/03 Python
Python实现全角半角字符互转的方法
2016/11/28 Python
windows上安装Anaconda和python的教程详解
2017/03/28 Python
python构建自定义回调函数详解
2017/06/20 Python
Python3 单行多行万能正则匹配方法
2019/01/07 Python
docker-py 用Python调用Docker接口的方法
2019/08/30 Python
python+pygame实现坦克大战小游戏的示例代码(可以自定义子弹速度)
2020/08/11 Python
详解pandas apply 并行处理的几种方法
2021/02/24 Python
博士研究生自我鉴定范文
2013/12/04 职场文书
2014端午节活动策划方案
2014/01/27 职场文书
一年级学生评语
2014/04/23 职场文书
优秀管理者事迹材料
2014/05/22 职场文书
基层党员公开承诺书
2014/05/29 职场文书
酒店厨房管理制度
2015/08/06 职场文书
sql字段解析器的实现示例
2021/06/23 SQL Server
使用HttpSessionListener监听器实战
2022/03/17 Java/Android
MySQL创建管理LIST分区
2022/04/13 MySQL
MySQL数据库中的锁、解锁以及删除事务
2022/05/06 MySQL