编程 Python

Python爬虫headers处理及网络超时问题解决方案

Posted in Python onJune 19, 2020

1、请求headers处理

我们有时请求服务器时，无论get或post请求，会出现403错误，这是因为服务器拒绝了你的访问，这时我们可以通过模拟浏览器的头部信息进行访问，这样就可以解决反爬设置的问题。

import requests
# 创建需要爬取网页的地址
url = 'https://www.baidu.com/'   
# 创建头部信息
headers = {'User-Agent':'OW64; rv:59.0) Gecko/20100101 Firefox/59.0'}
# 发送网络请求
response = requests.get(url, headers=headers)  
# 以字节流形式打印网页源码
print(response.content)

结果：

b'<!DOCTYPE html><!--STATUS OK-->\n\n\n  \n  \n              <html><head><meta http-equiv="Content-Type" content="text/html;charset=utf-8"><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"><meta content="always" name="referrer"><meta name="theme-color" content="#2932e1"><meta name="description" content="\xe5\x85\xa8\xe7\x90\x83\xe6\x9c\x80\xe5\xa4\xa7\xe7\x9a\x84\xe4\xb8\xad\xe6\x96\x87\xe6\x90\x9c\xe7\xb4\xa2\xe5\xbc\x95\xe6\x93\x8e\xe3\x80\x81\xe8\x87\xb4\xe5\x8a\x9b\xe4\xba\x8e\xe8\xae\xa9\xe7\xbd\x91\xe6\xb0\x91\xe6\x9b\xb4\xe4\xbe\xbf\xe6\x8d\xb7\xe5\x9c\xb0\xe8\x8e\xb7\xe5\x8f\x96\xe4\xbf\xa1\xe6\x81\xaf\xef\xbc\x8c\xe6\x89\xbe\xe5\x88\xb0\xe6\x89\x80\xe6\xb1\x82\xe3\x80\x82\xe7\x99\xbe\xe5\xba\xa6\xe8\xb6\x85\xe8\xbf\x87\xe5\x8d\x83\xe4\xba\xbf\xe7\x9a\x84\xe4\xb8\xad\xe6\x96\x87\xe7\xbd\x91\xe9\xa1\xb5\xe6\x95\xb0\xe6\x8d\xae\xe5\xba\x93\xef\xbc\x8c\xe5\x8f\xaf\xe4\xbb\xa5\xe7\x9e\xac\xe9\x97\xb4\xe6\x89\xbe\xe5\x88\xb0\xe7\x9b\xb8\xe5\x85\xb3\xe7\x9a\x84\xe6\x90\x9c\xe7\xb4\xa2\xe7\xbb\x93\xe6\x9e\x9c\xe3\x80\x82"><link rel="shortcut icon" href="/favicon.ico" rel="external nofollow" type="image/x-icon" /><link rel="search" type="application/opensearchdescription+xml" href="/content-search.xml" rel="external nofollow" title="\xe7\x99\xbe\xe5\xba\xa6\xe6\x90\x9c\xe7\xb4\xa2" /><link rel="icon" sizes="any" mask href="//www.baidu.com/img/baidu_85beaf5496f291521eb75ba38eacbd87.svg" rel="external nofollow" ><link rel="dns-prefetch" href="//dss0.bdstatic.com" rel="external nofollow" /><link rel="dns-prefetch" href="//dss1.bdstatic.com" rel="external nofollow" /><link rel="dns-prefetch" href="//ss1.bdstatic.com" rel="external nofollow" /><link rel="dns-prefetch" href="//sp0.baidu.com" rel="external nofollow" /><link rel="dns-prefetch" href="//sp1.baidu.com" rel="external nofollow" /><link rel="dns-prefetch" href="//sp2.baidu.com" rel="external nofollow" />

2、网络超时问题

在访问一个网页时，如果该网页长时间未响应，系统就会判断该网页超时，而无法打开网页。下面通过代码来模拟一个网络超时的现象。

import requests
# 循环发送请求50次
for a in range(1, 50):
  # 捕获异常
  try:
    # 设置超时为0.5秒
    response = requests.get('https://www.baidu.com/', timeout=0.5)
    # 打印状态码
    print(response.status_code)
  # 捕获异常
  except Exception as e:
    # 打印异常信息
    print('异常'+str(e))

结果：

以上代码中，模拟进行了50次循环请求，设置超时时间为0.5秒，在0.5秒内服务器未作出相应视为超时，程序会将超时信息打印在控制台中。

说起网络异常信息，requests模块同样提供了三种常见的网络异常类，示例代码如下：

import requests
# 导入requests.exceptions模块中的三种异常类
from requests.exceptions import ReadTimeout,HTTPError,RequestException
# 循环发送请求50次
for a in range(1, 50):
  # 捕获异常
  try:
    # 设置超时为0.5秒
    response = requests.get('https://www.baidu.com/', timeout=0.5)
    # 打印状态码
    print(response.status_code)
  # 超时异常
  except ReadTimeout:
    print('timeout')
  # HTTP异常
  except HTTPError:
    print('httperror')
  # 请求异常
  except RequestException:
    print('reqerror')

结果：

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python爬虫headers处理及网络超时问题解决方案

- Author -

夏日的向日葵

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python抓取网页图片示例(python爬虫)

Apr 27 Python

关于Python正则表达式 findall函数问题详解

Mar 22 Python

用TensorFlow实现多类支持向量机的示例代码

Apr 28 Python

python 获取微信好友列表的方法(微信web)

Feb 21 Python

Flask-WTF表单的使用方法

Jul 12 Python

TensorFlow实现自定义Op方式

Feb 04 Python

Python打包模块wheel的使用方法与将python包发布到PyPI的方法详解

Feb 12 Python

python实现TCP文件传输

Mar 20 Python

python正则表达式匹配反斜杠的操作方法

Aug 07 Python

基于Python实现天天酷跑功能

Jan 06 Python

用python实现监控视频人数统计

May 21 Python

Python 中 logging 模块使用详情

Mar 03 Python

sklearn和keras的数据切分与交叉验证的实例详解

Jun 19 #Python

Python虚拟环境的创建和包下载过程分析

Jun 19 #Python

通过实例解析python创建进程常用方法

Jun 19 #Python

keras model.fit 解决validation_spilt=num 的问题

Jun 19 #Python

为什么是 Python -m

Jun 19 #Python

Python 私有属性和私有方法应用场景分析

Jun 19 #Python

Python基于network模块制作电影人物关系图

Jun 19 #Python

You might like

PHP SQLite类

2009/05/07 PHP

《PHP编程最快明白》第六讲：Mysql数据库操作

2010/11/01 PHP

php浏览历史记录的方法

2015/03/10 PHP

PHP使用preg_split和explode分割textarea存放内容的方法分析

2017/07/03 PHP

PHP如何搭建百度Ueditor富文本编辑器

2018/09/21 PHP

JS中style属性

2006/10/11 Javascript

用jscript实现新建word文档

2007/06/15 Javascript

JavaScript 学习笔记（十五）

2010/01/28 Javascript

麻雀虽小五脏俱全 Dojo自定义控件应用

2010/09/04 Javascript

jquery控制listbox中项的移动并排序的实现代码

2010/09/28 Javascript

Javascript改变CSS样式(局部和全局)

2013/12/18 Javascript

再分享70+免费的jquery 图片滑块效果插件和教程

2014/12/15 Javascript

JavaScript截取指定长度字符串点击可以展开全部代码

2015/12/04 Javascript

JS组件Bootstrap Table布局详解

2016/05/27 Javascript

Three.js快速入门教程

2016/09/09 Javascript

jquery 实现回车登录详解及实例代码

2016/10/23 Javascript

BootStrapTable 单选及取值的实现方法

2017/01/10 Javascript

JS中静态页面实现微信分享功能

2017/02/06 Javascript

js实现自定义进度条效果

2017/03/15 Javascript

详解前端路由实现与react-router使用姿势

2017/08/07 Javascript

axios拦截设置和错误处理方法

2018/03/05 Javascript

JS二级菜单不同实现方法分析【4种方法】

2018/12/21 Javascript

jquery3和layui冲突导致使用layui.layer.full弹出全屏iframe窗口时高度152px问题

2019/05/12 jQuery

Vue的全局过滤器和私有过滤器的实现

2020/04/20 Javascript

vue v-for 点击当前行,获取当前行数据及event当前事件对象的操作

2020/09/10 Javascript

python DataFrame 修改列的顺序实例

2018/04/10 Python

Python读写/追加excel文件Demo分享

2018/05/03 Python

pyqt5对用qt designer设计的窗体实现弹出子窗口的示例

2019/06/19 Python

Python学习笔记之文件的读写操作实例分析

2019/08/07 Python

香港通票：Hong Kong Pass

2019/02/26 全球购物

英国IT硬件供应商，定制游戏PC：Mesh Computers

2019/03/28 全球购物

《三亚落日》教学反思

2014/04/26 职场文书

2014年机关工会工作总结

2014/12/19 职场文书

酒店服务员岗位职责

2015/02/09 职场文书

MySQL系列之八 MySQL服务器变量

2021/07/02 MySQL

mysql下的max_allowed_packet参数设置详解

2022/02/12 MySQL