python网络爬虫之如何伪装逃过反爬虫程序的方法


Posted in Python onNovember 23, 2017

有的时候,我们本来写得好好的爬虫代码,之前还运行得Ok, 一下子突然报错了。

报错信息如下:

Http 800 Internal internet error

这是因为你的对象网站设置了反爬虫程序,如果用现有的爬虫代码,会被拒绝。

之前正常的爬虫代码如下:

from urllib.request import urlopen
...
html = urlopen(scrapeUrl)
bsObj = BeautifulSoup(html.read(), "html.parser")

这个时候,需要我们给我们的爬虫代码做下伪装,

给它添加表头伪装成是来自浏览器的请求

修改后的代码如下:

import urllib.parse
import urllib.request
from bs4 import BeautifulSoup
...
req = urllib.request.Request(scrapeUrl)
req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)') 
response = urllib.request.urlopen(req) 
html = response.read()
 
bsObj = BeautifulSoup(html, "html.parser")

Ok,一切搞定,又可以继续爬了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python算法学习之桶排序算法实例(分块排序)
Dec 18 Python
在Python的Flask框架中使用模版的入门教程
Apr 20 Python
21行Python代码实现拼写检查器
Jan 25 Python
Python中函数及默认参数的定义与调用操作实例分析
Jul 25 Python
python机器学习之贝叶斯分类
Mar 26 Python
python实现textrank关键词提取
Jun 22 Python
Python3爬虫学习入门教程
Dec 11 Python
用Python写一个模拟qq聊天小程序的代码实例
Mar 06 Python
解决python明明pip安装成功却找不到包的问题
Aug 28 Python
浅谈Python type的使用
Nov 19 Python
Python局部变量与全局变量区别原理解析
Jul 14 Python
python基于tkinter制作m3u8视频下载工具
Apr 24 Python
Python实现的基数排序算法原理与用法实例分析
Nov 23 #Python
Scrapy抓取京东商品、豆瓣电影及代码分享
Nov 23 #Python
python简单图片操作:打开\显示\保存图像方法介绍
Nov 23 #Python
python分析作业提交情况
Nov 22 #Python
Python分析学校四六级过关情况
Nov 22 #Python
linux环境下的python安装过程图解(含setuptools)
Nov 22 #Python
python使用正则表达式替换匹配成功的组并输出替换的次数
Nov 22 #Python
You might like
如何使用PHP获取网络上文件
2006/10/09 PHP
四个常见html网页乱码问题及解决办法
2015/09/08 PHP
Yii使用migrate命令执行sql语句的方法
2016/03/15 PHP
PHP判断访客是否手机端(移动端浏览器)访问的方法总结【4种方法】
2019/03/27 PHP
JS 强制设为首页的代码
2009/01/31 Javascript
Java 正则表达式学习总结和一些小例子
2012/09/13 Javascript
使用js检测浏览器的实现代码
2013/05/14 Javascript
js实现鼠标滚轮控制图片缩放效果的方法
2015/02/20 Javascript
JavaScript实现数字数组正序排列的方法
2015/04/06 Javascript
JavaScript简单下拉菜单实例代码
2015/09/07 Javascript
利用Node.JS实现邮件发送功能
2016/10/21 Javascript
js中的触发事件对象event.srcElement与event.target详解
2017/03/15 Javascript
前端自动化开发之Node.js的环境搭建教程
2017/04/01 Javascript
利用node.js写一个爬取知乎妹纸图的小爬虫
2017/05/03 Javascript
详解vue后台系统登录态管理
2019/04/02 Javascript
Node.js 实现远程桌面监控的方法步骤
2019/07/02 Javascript
微信h5静默和非静默授权获取用户openId的方法和步骤
2020/06/08 Javascript
[00:14]护身甲盾
2019/03/06 DOTA
十个Python程序员易犯的错误
2015/12/15 Python
Python原始字符串与Unicode字符串操作符用法实例分析
2017/07/22 Python
Python网络编程之TCP与UDP协议套接字用法示例
2018/02/02 Python
python向已存在的excel中新增表,不覆盖原数据的实例
2018/05/02 Python
Python requests发送post请求的一些疑点
2018/05/20 Python
使用Python处理BAM的方法
2018/09/28 Python
django之跨表查询及添加记录的示例代码
2018/10/16 Python
python实现的MySQL增删改查操作实例小结
2018/12/19 Python
用Python从0开始实现一个中文拼音输入法的思路详解
2019/07/20 Python
HTML5 播放 RTSP 视频的实例代码
2019/07/29 HTML / CSS
Sephora丝芙兰泰国官方网站:国际知名化妆品购物
2017/11/15 全球购物
Pure Collection美国官网:来自英国羊绒专家的奢华羊绒
2017/11/19 全球购物
Electric官网:美国高级眼镜和配件品牌
2020/06/04 全球购物
《钱学森》听课反思
2014/03/01 职场文书
会计工作态度自我评价
2015/03/06 职场文书
2016春季幼儿园小班开学寄语
2015/12/03 职场文书
Go遍历struct,map,slice的实现
2021/06/13 Golang
Python调用腾讯API实现人脸身份证比对功能
2022/04/04 Python