编程 Python

python解决网站的反爬虫策略总结

Posted in Python onOctober 26, 2016

本文详细介绍了网站的反爬虫策略，在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。

从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。这里我们只讨论数据采集部分。

一般网站从三个方面反爬虫：用户请求的Headers，用户行为，网站目录和数据加载方式。前两种比较容易遇到，大多数网站都从这些角度来反爬虫。第三种一些应用ajax的网站会采用，这样增大了爬取的难度（防止静态爬虫使用ajax技术动态加载页面）。

1、从用户请求的Headers反爬虫是最常见的反爬虫策略。

伪装header。很多网站都会对Headers的User-Agent进行检测，还有一部分网站会对Referer进行检测（一些资源网站的防盗链就是检测Referer）。如果遇到了这类反爬虫机制，可以直接在爬虫中添加Headers，将浏览器的User-Agent复制到爬虫的Headers中；或者将Referer值修改为目标网站域名[评论：往往容易被忽略，通过对请求的抓包分析，确定referer，在程序中模拟访问请求头中添加]。对于检测Headers的反爬虫，在爬虫中修改或者添加Headers就能很好的绕过。

2、基于用户行为反爬虫

还有一部分网站是通过检测用户行为，例如同一IP短时间内多次访问同一页面，或者同一账户短时间内多次进行相同操作。[这种防爬，需要有足够多的ip来应对]

（1）、大多数网站都是前一种情况，对于这种情况，使用IP代理就可以解决。可以专门写一个爬虫，爬取网上公开的代理ip，检测后全部保存起来。有了大量代理ip后可以每请求几次更换一个ip，这在requests或者urllib中很容易做到，这样就能很容易的绕过第一种反爬虫。

编写爬虫代理：

步骤：

1.参数是一个字典{'类型'：'代理ip：端口号'}

proxy_support=urllib.request.ProxyHandler({})
2.定制、创建一个opener

opener=urllib.request.build_opener(proxy_support)
3a.安装opener

urllib.request.install_opener(opener)
3b.调用opener

opener.open(url)

用大量代理随机请求目标网站，应对反爬虫

#! /usr/bin/env python3.4
#-*- coding:utf-8 -*-
#__author__ == "tyomcat"


import urllib.request
import random
import re

url='http://www.whatismyip.com.tw'
iplist=['121.193.143.249:80','112.126.65.193:80','122.96.59.104:82','115.29.98.139:9999','117.131.216.214:80','116.226.243.166:8118','101.81.22.21:8118','122.96.59.107:843']

proxy_support = urllib.request.ProxyHandler({'http':random.choice(iplist)})
opener=urllib.request.build_opener(proxy_support)
opener.addheaders=[('User-Agent','Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36')]
urllib.request.install_opener(opener)
response = urllib.request.urlopen(url)
html = response.read().decode('utf-8')

pattern = re.compile('<h1>(.*?)</h1>.*?<h2>(.*?)</h2>')
iterms=re.findall(pattern,html)
for item in iterms:
  print(item[0]+":"+item[1])

（2）、对于第二种情况，可以在每次请求后随机间隔几秒再进行下一次请求。有些有逻辑漏洞的网站，可以通过请求几次，退出登录，重新登录，继续请求来绕过同一账号短时间内不能多次进行相同请求的限制。[评论：对于账户做防爬限制，一般难以应对，随机几秒请求也往往可能被封，如果能有多个账户，切换使用，效果更佳]

3、动态页面的反爬虫

上述的几种情况大多都是出现在静态页面，还有一部分网站，我们需要爬取的数据是通过ajax请求得到，或者通过Java生成的。

解决方案：Selenium+PhantomJS

Selenium：自动化web测试解决方案，完全模拟真实的浏览器环境，完全模拟基本上所有的用户操作

PhantomJS ：一个没有图形界面的浏览器

获取淘宝妹妹的个人详情地址：

#! /usr/bin/env python
# -*- coding:utf-8 -*-
#__author__ == "tyomcat"

from selenium import webdriver
import time
import re

drive = webdriver.PhantomJS(executable_path='phantomjs-2.1.1-linux-x86_64/bin/phantomjs')
drive.get('https://mm.taobao.com/self/model_info.htm?user_id=189942305&is_coment=false')

time.sleep(5)

pattern = re.compile(r'<div.*?mm-p-domain-info">.*?class="mm-p-info-cell clearfix">.*?<li>.*?<label>(.*?)</label><span>(.*?)</span>',re.S)
html=drive.page_source.encode('utf-8','ignore')
items=re.findall(pattern,html)
for item in items:
  print item[0],'http:'+item[1]
drive.close()

感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

python解决网站的反爬虫策略总结

- Author -

tyomcat

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

用python实现的可以拷贝或剪切一个文件列表中的所有文件

Apr 30 Python

Python批量按比例缩小图片脚本分享

May 21 Python

在Python中操作文件之truncate()方法的使用教程

May 25 Python

Python实现优先级队列结构的方法详解

Jun 02 Python

python 中if else 语句的作用及示例代码

Mar 05 Python

浅谈Python大神都是这样处理XML文件的

May 31 Python

Python3.6+Django2.0以上 xadmin站点的配置和使用教程图解

Jun 04 Python

python3调用windows dos命令的例子

Aug 14 Python

浅谈tensorflow 中的图片读取和裁剪方式

Jun 30 Python

Python对excel的基本操作方法

Feb 18 Python

Python爬取酷狗MP3音频的步骤

Feb 26 Python

Python3中最常用的5种线程锁实例总结

Jul 07 Python

Python控制多进程与多线程并发数总结

Oct 26 #Python

Python网络爬虫项目：内容提取器的定义

Oct 25 #Python

Python实现ssh批量登录并执行命令

Oct 25 #Python

详解Python的Lambda函数与排序

Oct 25 #Python

Python脚本实现Web漏洞扫描工具

Oct 25 #Python

python+django快速实现文件上传

Oct 24 #Python

python实现简单爬虫功能的示例

Oct 24 #Python

You might like

PHP及Zend Engine的线程安全模型分析

2011/11/10 PHP

PHP JSON出错：Cannot use object of type stdClass as array解决方法

2014/08/16 PHP

Laravel框架基于ajax和layer.js实现无刷新删除功能示例

2019/01/17 PHP

jquery遍历input取得input的name

2009/04/27 Javascript

JavaScript DOM 学习第五章表单简介

2010/02/19 Javascript

jQuery EasyUI 中文API Button使用实例

2010/04/14 Javascript

js 模式窗口(模式对话框和非模式对话框)的使用介绍

2014/07/17 Javascript

javascript 动态创建表格

2015/01/08 Javascript

JQuery validate插件验证用户注册信息

2016/05/11 Javascript

自适应布局meta标签中viewport、content、width、initial-scale、minimum-scale、maximum-scale总结

2017/08/18 Javascript

js实现随机点名系统(实例讲解)

2017/10/18 Javascript

[49:21]2018DOTA2亚洲邀请赛3月30日小组赛B组 Effect VS iG

2018/03/31 DOTA

python二分法实现实例

2013/11/21 Python

基于Python Shell获取hostname和fqdn释疑

2016/01/25 Python

Python ftp上传文件

2016/02/13 Python

Python通过调用mysql存储过程实现更新数据功能示例

2018/04/03 Python

python3 拼接字符串的7种方法

2018/09/12 Python

Python3.6中Twisted模块安装的问题与解决

2019/04/15 Python

python命令行参数用法实例分析

2019/06/25 Python

python按比例随机切分数据的实现

2019/07/11 Python

一行Python代码过滤标点符号等特殊字符

2019/08/12 Python

python禁用键鼠与提权代码实例

2019/08/16 Python

python单例设计模式实现解析

2020/01/07 Python

Tensorflow卷积实现原理+手写python代码实现卷积教程

2020/05/22 Python

利于python脚本编写可视化nmap和masscan的方法

2020/12/29 Python

仓库管理专业个人自我评价范文

2013/11/11 职场文书

个人现实表现材料

2014/02/04 职场文书

《草原的早晨》教学反思

2014/04/08 职场文书

环境卫生倡议书

2014/08/29 职场文书

效能风暴心得体会

2014/09/04 职场文书

2015教师年度考核评语

2015/03/25 职场文书

2015年社区纪检工作总结

2015/04/21 职场文书

无婚姻登记记录证明

2015/06/18 职场文书

学习党史心得体会2016

2016/01/23 职场文书

详解MySQL中的pid与socket

2021/06/15 MySQL

MySQL安装失败的原因及解决步骤

2022/06/14 MySQL