编程 Python

python爬虫模拟浏览器的两种方法实例分析

Posted in Python onDecember 09, 2019

本文实例讲述了python爬虫模拟浏览器的两种方法。分享给大家供大家参考，具体如下：

爬虫爬取网站出现403，因为站点做了防爬虫的设置

一、Herders 属性

爬取CSDN博客

import urllib.request
url = "http://blog.csdn.net/hurmishine/article/details/71708030"file = urllib.request.urlopen(url)

爬取结果

urllib.error.HTTPError: HTTP Error 403: Forbidden

这就说明CSDN做了一些设置，来防止别人恶意爬取信息

所以接下来，我们需要让爬虫模拟成浏览器

任意打开一个网页，比如打开百度,然后按F12，此时会出现一个窗口，我们切换到Network标签页，然后点击刷新网站，选中弹出框左侧的“www.baidu.com”，即下图所示：

python爬虫模拟浏览器的两种方法实例分析

往下拖动我们会看到“User-Agent”字样的一串信息，没错这就是我们想要的东西。我们将其复制下来。

此时我们得到的信息是：”Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36”

接下来我们可以用两种方式来模拟浏览器访问网页。

二、方法1：使用build_opener()修改报头

由于urlopen()不支持一些HTTP的高级功能，所以我们需要修改报头。可以使用urllib.request.build_opener()进行，我们修改一下上面的代码：

import urllib.request
url = "http://blog.csdn.net/hurmishine/article/details/71708030"headers = ("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
data = opener.open(url).read()
print(data)

上面代码中我们先定义一个变量headers来储存User-Agent信息，定义的格式是(“User-Agent”,具体信息)
具体信息我们上面已经获取到了，这个信息获取一次即可，以后爬取其他网站也可以用，所以我们可以保存下来，不用每次都F12去找了。

然后我们用urllib.request.build_opener()创建自定义的opener对象并赋值给opener，然后设置opener的addheaders，就是设置对应的头信息，格式为：“opener(对象名).addheaders = [头信息(即我们储存的具体信息)]”，设置好后我们就可以使用opener对象的open()方法打开对应的网址了。格式:“opener(对象名).open(url地址)”打开后我们可以使用read()方法来读取对应数据，并赋值给data变量。

得到输出结果

b'\r\n<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">\r\n \r\n <html xmlns="http://www.w3.org/1999/xhtml">\r\n \r\n<head> \r\n\r\n <link rel="canonical" href="http://blog.csdn.net/hurmishine/article/details/71708030" rel="external nofollow" /> ...

三、方法2：使用add_header()添加报头

除了上面的这种方法，还可以使用urllib.request.Request()下的add_header()实现浏览器的模拟。

先上代码

import urllib.request
url = "http://blog.csdn.net/hurmishine/article/details/71708030"req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36')
data = urllib.request.urlopen(req).read()
print(data)

好，我们来分析一下。

导入包，定义url地址我们就不说了，我们使用urllib.request.Request(url)创建一个Request对象，并赋值给变量req，创建Request对象的格式：urllib.request.Request(url地址)

随后我们使用add_header()方法添加对应的报头信息，格式：Request(对象名).add_header(‘对象名'，'对象值')

现在我们已经设置好了报头，然后我们使用urlopen()打开该Request对象即可打开对应的网址，多以我们使用

data = urllib.request.urlopen(req).read()打开了对应的网址，并读取了网页内容，并赋值给data变量。

以上，我们使用了两种方法实现了爬虫模拟浏览器打开网址，并获取网址的内容信息，避免了403错误。

值得我们注意的是，方法1中使用的是addheaders()方法，方法2中使用的是add_header()方法，注意末尾有无s以及有无下划线的区别

更多关于Python相关内容可查看本站专题：《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

python爬虫模拟浏览器的两种方法实例分析

- Author -

Uzizi

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python中去空格函数的用法

Aug 21 Python

Python中处理时间的几种方法小结

Apr 09 Python

详解Python中for循环的使用

Apr 14 Python

Python文件右键找不到IDLE打开项解决办法

Jun 08 Python

Windows下安装python MySQLdb遇到的问题及解决方法

Mar 16 Python

Python实现的排列组合计算操作示例

Oct 13 Python

python实现人脸识别经典算法（一）特征脸法

Mar 13 Python

Python UnboundLocalError和NameError错误根源案例解析

Oct 31 Python

Python 通过打码平台实现验证码的实现

May 13 Python

Python中一个for循环循环多个变量的示例

Jul 16 Python

如何使用Python抓取网页tag操作

Feb 14 Python

使用keras2.0 将Merge层改为函数式

May 23 Python

Python二次规划和线性规划使用实例

Dec 09 #Python

Python Numpy数组扩展repeat和tile使用实例解析

Dec 09 #Python

如何将 awk 脚本移植到 Python

Dec 09 #Python

Python 读取 YUV(NV12) 视频文件实例

Dec 09 #Python

基于YUV 数据格式详解及python实现方式

Dec 09 #Python

Python编写一个验证码图片数据标注GUI程序附源码

Dec 09 #Python

Python内置方法实现字符串的秘钥加解密(推荐)

Dec 09 #Python

You might like

SONY SRF-M100的电路分析

2021/03/02 无线电

PHP中filter函数校验数据的方法详解

2015/07/31 PHP

详解php实现页面静态化原理

2017/06/21 PHP

使用PHP连接数据库_实现用户数据的增删改查的整体操作示例

2017/09/01 PHP

Thinkphp 框架扩展之数据库驱动常用方法小结

2020/04/23 PHP

ThinkPHP6.0如何利用自定义验证规则规范的实现登陆

2020/12/16 PHP

在IE,Firefox,Safari,Chrome,Opera浏览器上调试javascript

2008/12/02 Javascript

强大的jquery插件jqeuryUI做网页对话框效果！简单

2011/04/14 Javascript

js工具方法弹出蒙版

2013/05/08 Javascript

jquery中focus()函数实现当对象获得焦点后自动把光标移到内容最后

2013/09/29 Javascript

jquery中获得元素尺寸和坐标的方法整理

2014/05/18 Javascript

javascript精确统计网站访问量实例代码

2015/12/19 Javascript

AngularJS学习笔记之表单验证功能实例详解

2017/07/06 Javascript

AngualrJs清除定时器遇到的坑

2017/10/13 Javascript

react-redux中connect的装饰器用法@connect详解

2018/01/13 Javascript

vue页面切换到滚动页面显示顶部的实例

2018/03/13 Javascript

vue二级菜单导航点击选中事件的方法

2018/09/12 Javascript

小程序实现订单倒计时功能

2019/04/23 Javascript

详解js根据百度地图提供经纬度计算两点距离

2019/05/13 Javascript

微信小程序实现锚点功能

2019/11/20 Javascript

vue实现移动端图片上传功能

2019/12/23 Javascript

[03:03]2014DOTA2国际邀请赛 EG战队专访

2014/07/12 DOTA

[00:58]PWL开团时刻DAY5——十人开雾0换5

2020/11/04 DOTA

Python linecache.getline()读取文件中特定一行的脚本

2008/09/06 Python

django项目运行因中文而乱码报错的几种情况解决

2017/11/07 Python

基于Python中capitalize()与title()的区别详解

2017/12/09 Python

python生成1行四列全2矩阵的方法

2018/08/04 Python

Linux下Python安装完成后使用pip命令的详细教程

2018/11/22 Python

python将字符串list写入excel和txt的实例

2019/07/20 Python

python 链接sqlserver 写接口实例

2020/03/11 Python

Pytorch数据拼接与拆分操作实现图解

2020/04/30 Python

联想韩国官网：Lenovo Korea

2018/05/10 全球购物

武汉高蓝德国际.net机试

2016/06/24 面试题

培训演讲稿范文

2014/01/12 职场文书

神秘岛读书笔记

2015/07/01 职场文书

公司团队口号霸气押韵

2015/12/24 职场文书