python做反被爬保护的方法


Posted in Python onJuly 01, 2019

网络爬虫,是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。但是当网络爬虫被滥用后,互联网上就出现太多同质的东西,原创得不到保护。于是,很多网站开始反网络爬虫,想方设法保护自己的内容。

一: User-Agent +Referer检测

User-Agent 是HTTP协议的中的一个字段, 其作用是描述发出HTTP请求的终端的一些信息。

使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

服务器通过这个字段就可以知道访问网站的是什么人。对于不是正常浏览器的用户进行屏蔽。

解决方案:

伪装浏览器的User-Agent,因为每个浏览器的User-Agent不一样,并且所有的用户都能使用浏览器。所有每次请求的时候条件浏览器的User-Agent,就能解决UA检测

Referer是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器我是从哪个页面链接过来的。例如有一些图片网站在你请求图片的时候,就会检测你的Referer值,如果Referer不符合,不会返回正常的图片。

解决方案:

在检测referer的请求中,携带符合的referer值。

二: js混淆和渲染

所谓 JavaScript 混淆,基本就是:

1.去掉一些实际没有调用的函数。

2.将零散的变量声明合并。

3.逻辑函数的精简。

4.变量名的简化。具体要看不同的压缩工具的考虑优劣。常见的有UglifyJS、JScrambler等工具。

js渲染其实就是对HTML页面的修改。比如有一些网页本身没有返回数据,数据是经过js加载之后添加到HTML当中的。当遇到这种情况的时候,我们要知道爬虫是不会执行JavaScript操作。所以需要用其他的方法处理。

解决方案:

1.通过阅读网站js源码,找到关键的代码,并用python实现。

2.通过阅读网站js源码,找到关键的代码,用PyV8,execjs等库直接执行js代码。

3.通过selenium库直接模拟浏览器环境

三:IP限制频次

WEB系统都是走http协议跟WEB容器连通的,每次请求至少会产生一次客户端与服务器的tcp连接。

对于服务端来说可以很清楚的查看到,一个ip地址在单位时间内发起的请求。

当请求数超过一定的值之后,就可判断为非正常的用户请求。

解决方案:

1.自行设计ip代理池,通过轮换的方式,每次请求携带不同的代理地址。

2.ADSL动态拨号他有个独有的特点,每拨一次号,就获取一个新的IP。也就是它的IP是不固定的。

四:验证码

验证码(CAPTCHA)是“Completely Automated PublicTuring test to tell Computers and HumansApart”(全自动区分计算机和人类的图灵测试)的缩写,是一种区分用户是计算机还是人的公共全自动程序。

可以防止:恶意破解密码、刷票、论坛灌水,有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试。

这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于计算机无法解答CAPTCHA的问题,所以回答出问题的用户就可以被认为是人类。

解决方案:

1.手动识别验证码

2.pytesseract识别简单的验证码

3.对接打码平台

4.机器学习

扩展知识:

基于反爬的相关实例代码:

#! /usr/bin/env python3.4
#-*- coding:utf-8 -*-
#__author__ == "tyomcat"
 
 
import urllib.request
import random
import re
 
url='http://www.whatismyip.com.tw'
iplist=['121.193.143.249:80','112.126.65.193:80','122.96.59.104:82','115.29.98.139:9999','117.131.216.214:80','116.226.243.166:8118','101.81.22.21:8118','122.96.59.107:843']
 
proxy_support = urllib.request.ProxyHandler({'http':random.choice(iplist)})
opener=urllib.request.build_opener(proxy_support)
opener.addheaders=[('User-Agent','Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36')]
urllib.request.install_opener(opener)
response = urllib.request.urlopen(url)
html = response.read().decode('utf-8')
 
pattern = re.compile('<h1>(.*?)</h1>.*?<h2>(.*?)</h2>')
iterms=re.findall(pattern,html)
for item in iterms:
  print(item[0]+":"+item[1])
#! /usr/bin/env python
# -*- coding:utf-8 -*-
#__author__ == "tyomcat"
 
from selenium import webdriver
import time
import re
 
drive = webdriver.PhantomJS(executable_path='phantomjs-2.1.1-linux-x86_64/bin/phantomjs')
drive.get('https://mm.taobao.com/self/model_info.htm?user_id=189942305&is_coment=false')
 
time.sleep(5)
 
pattern = re.compile(r'<div.*?mm-p-domain-info">.*?class="mm-p-info-cell clearfix">.*?<li>.*?<label>(.*?)</label><span>(.*?)</span>',re.S)
html=drive.page_source.encode('utf-8','ignore')
items=re.findall(pattern,html)
for item in items:
  print item[0],'http:'+item[1]
drive.close()
Python 相关文章推荐
Python获取apk文件URL地址实例
Nov 01 Python
Python实现生成简单的Makefile文件代码示例
Mar 10 Python
Python读写Json涉及到中文的处理方法
Sep 12 Python
Python爬取三国演义的实现方法
Sep 12 Python
Python编程使用NLTK进行自然语言处理详解
Nov 16 Python
python监控文件并且发送告警邮件
Jun 21 Python
对pandas中时间窗函数rolling的使用详解
Nov 28 Python
选择Python写网络爬虫的优势和理由
Jul 07 Python
python自带tkinter库实现棋盘覆盖图形界面
Jul 17 Python
Pytorch 实现自定义参数层的例子
Aug 17 Python
Python3 sys.argv[ ]用法详解
Oct 24 Python
python 浮点数四舍五入需要注意的地方
Aug 18 Python
python全栈知识点总结
Jul 01 #Python
python实现可变变量名方法详解
Jul 01 #Python
12个步骤教你理解Python装饰器
Jul 01 #Python
详解利用python+opencv识别图片中的圆形(霍夫变换)
Jul 01 #Python
在python里面运用多继承方法详解
Jul 01 #Python
详解利用OpenCV提取图像中的矩形区域(PPT屏幕等)
Jul 01 #Python
用python打印1~20的整数实例讲解
Jul 01 #Python
You might like
PHP 缓存实现代码及详细注释
2010/05/16 PHP
php 学习资料零碎东西
2010/12/04 PHP
php实现二叉树中和为某一值的路径方法
2018/10/14 PHP
Javascript &amp; DHTML 实例编程(教程)(三)初级实例篇1—上传文件控件实例
2007/06/02 Javascript
extjs ColumnChart设置不同的颜色实现代码
2013/05/17 Javascript
利用ajaxfileupload插件实现文件上传无刷新的具体方法
2013/06/08 Javascript
如何使用Javascript获取距今n天前的日期
2013/07/08 Javascript
一个简单的全屏图片上下打开显示网页效果示例
2014/07/08 Javascript
jQuery实现网站添加高亮突出显示效果的方法
2015/06/26 Javascript
js实现仿网易点击弹出提示同时背景变暗效果
2015/08/13 Javascript
JavaScript兼容性总结之获取非行间样式案例
2016/08/07 Javascript
Javascript 实现简单计算器实例代码
2016/10/23 Javascript
实现easyui的datagrid导出为excel的示例代码
2016/11/10 Javascript
JavaScript利用正则表达式替换字符串中的内容
2016/12/12 Javascript
bootstrap——bootstrapTable实现隐藏列的示例
2017/01/14 Javascript
扩展bootstrap的modal模态框-动态添加modal框-弹出多个modal框
2017/02/21 Javascript
Angular 2.x学习教程之结构指令详解
2017/05/25 Javascript
jQuery插件ImgAreaSelect实现头像上传预览和裁剪功能实例讲解一
2017/05/26 jQuery
JavaScript中正则表达式使数字、中文或指定字符高亮显示
2017/10/31 Javascript
js实现rem自动匹配计算font-size的示例
2017/11/18 Javascript
H5+C3+JS实现双人对战五子棋游戏(UI篇)
2020/05/28 Javascript
[02:28]DOTA2亚洲邀请赛附加赛 RECAP赛事回顾
2015/01/29 DOTA
启动targetcli时遇到错误解决办法
2017/10/26 Python
完美解决安装完tensorflow后pip无法使用的问题
2018/06/11 Python
对pyqt5多线程正确的开启姿势详解
2019/06/14 Python
Pytorch 扩展Tensor维度、压缩Tensor维度的方法
2020/09/09 Python
好学生评语大全
2014/05/05 职场文书
奠基仪式策划方案
2014/05/15 职场文书
区域销售主管岗位职责
2014/06/15 职场文书
违反单位工作制度检讨书
2014/10/25 职场文书
分居协议书范本(律师见证版)
2014/11/26 职场文书
总经理检讨书范文
2015/02/16 职场文书
2016年中秋祝酒词
2015/11/26 职场文书
用Python提取PDF表格的方法
2021/04/11 Python
Python包管理工具pip的15 个使用小技巧
2021/05/17 Python
Go 语言下基于Redis分布式锁的实现方式
2021/06/28 Golang