编程 Python

python爬虫headers设置后无效的解决方法

Posted in Python onOctober 21, 2017

此次遇到的是一个函数使用不熟练造成的问题，但有了分析工具后可以很快定位到问题（此处推荐一个非常棒的抓包工具fiddler）

正文如下：

在爬取某个app数据时（app上的数据都是由http请求的），用Fidder分析了请求信息，并把python的request header信息写在程序中进行请求数据

代码如下

import requests
url = 'http://xxx?startDate=2017-10-19&endDate=2017-10-19&pageIndex=1&limit=50&sort=datetime&order=desc'

headers={
 "Host":"xxx.com",
 "Connection": "keep-alive",
 "Accept": "application/json, text/javascript, */*; q=0.01",
 "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.59 Safari/537.36",
 "X-Requested-With": "XMLHttpRequest",
 "Referer": "http://app.jg.eastmoney.com/html_Report/index.html",
 "Accept-Encoding": "gzip,deflate",
 "Accept-Language": "en-us,en",
 "Cookie":"xxx"
}
r = requests.get(url,headers)
print (r.text)

请求成功但是，返回的是

{"Id":"6202c187-2fad-46e8-b4c6-b72ac8de0142","ReturnMsg":"加载失败！"}

就是被发现不是正常请求被拦截了

然后我去Fidder中看刚才python发送请求的记录 #盖掉的两个部分分别是Host和URL。

python爬虫headers设置后无效的解决方法

然后查看请求详细信息的时候，请求头并没有加载进去，User-Agent就写着python-requests ! #请求头里的UA信息是java，python程序，有点反爬虫意识的网站、app都会拦截掉

Header详细信息如下

GET http://xxx?istartDate=2017-10-19&endDate=2017-10-19&pageIndex=1&limit=50&sort=datetime&order=desc
&Host=xxx.com

&Connection=keep-alive

&Accept=application%2Fjson%2C+text%2Fjavascript%2C+%2A%2F%2A%3B+q%3D0.01

&User-Agent=Mozilla%2F5.0+%28Windows+NT+6.1%3B+WOW64%29+AppleWebKit%2F537.36+%28KHTML%2C+like+Gecko%29+Chrome%2F29.0.1547.59+Safari%2F537.36

&X-Requested-With=XMLHttpRequest

&Referer=xxx

&Accept-Encoding=gzip%2Cdeflate

&Accept-Language=en-us%2Cen

&Cookie=xxx
HTTP/1.1


Host: xxx.com
User-Agent: python-requests/2.18.4
Accept-Encoding: gzip, deflate
Accept: */*
Connection: keep-alive


HTTP/1.1 200 OK
Server: nginx/1.2.2
Date: Sat, 21 Oct 2017 06:07:21 GMT
Content-Type: application/json; charset=utf-8
Content-Length: 75
Connection: keep-alive
Cache-Control: private
X-AspNetMvc-Version: 5.2
X-AspNet-Version: 4.0.30319
X-Powered-By: ASP.NET

一开始还没发现，等我把请求的URL信息全部读完，才发现程序把我的请求头信息当做参数放到了URL里

那就是我请求的时候request函数Header信息参数用错了

又重新看了一下Requests库的Headers参数使用方法，发现有一行代码写错了，在使用request.get（）方法时要把参数 “headers =“写出来

更改如下：

import requests
url = 'http://xxx?startDate=2017-10-19&endDate=2017-10-19&pageIndex=1&limit=50&sort=datetime&order=desc'

headers={
 "Host":"xxx.com",
 "Connection": "keep-alive",
 "Accept": "application/json, text/javascript, */*; q=0.01",
 "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.59 Safari/537.36",
 "X-Requested-With": "XMLHttpRequest",
 "Referer": "http://app.jg.eastmoney.com/html_Report/index.html",
 "Accept-Encoding": "gzip,deflate",
 "Accept-Language": "en-us,en",
 "Cookie":"xxx"
}
r = requests.get(url,headers=headers)

然后去查看Fiddler中的请求。

python爬虫headers设置后无效的解决方法

此次python中的请求头已经正常了，请求详细信息如下

GET http://xxx?startDate=2017-10-19&endDate=2017-10-19&pageIndex=1&limit=50&sort=datetime&order=desc HTTP/1.1
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.59 Safari/537.36
Accept-Encoding: gzip,deflate
Accept: application/json, text/javascript, */*; q=0.01
Connection: keep-alive
Host: xxx.com
X-Requested-With: XMLHttpRequest
Referer: http://xxx
Accept-Language: en-us,en
Cookie: xxx


HTTP/1.1 200 OK
Server: nginx/1.2.2
Date: Sat, 21 Oct 2017 06:42:21 GMT
Content-Type: application/json; charset=utf-8
Content-Length: 75
Connection: keep-alive
Cache-Control: private
X-AspNetMvc-Version: 5.2
X-AspNet-Version: 4.0.30319
X-Powered-By: ASP.NET

然后又用python程序请求了一次，结果请求成功，返回的还是

{"Id":"6202c187-2fad-46e8-b4c6-b72ac8de0142","ReturnMsg":"加载失败！"}

因为一般cookie都会在短时间内过期，所以更新了cookie，然后请求成功

python爬虫headers设置后无效的解决方法

需要注意的是用程序爬虫一定要把Header设置好，这个app如果反爬的时候封ip的话可能就麻烦了。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python爬虫headers设置后无效的解决方法

- Author -

返回主页 Jacck

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

jupyter安装小结

Mar 13 Python

Python 中迭代器与生成器实例详解

Mar 29 Python

pandas创建新Dataframe并添加多行的实例

Apr 08 Python

解决Python 爬虫URL中存在中文或特殊符号无法请求的问题

May 11 Python

python 随机打乱图片和对应的标签方法

Dec 14 Python

简单了解python 邮件模块的使用方法

Jul 24 Python

对Pytorch中nn.ModuleList 和 nn.Sequential详解

Aug 18 Python

Python列表删除元素del、pop()和remove()的区别小结

Sep 11 Python

python 矢量数据转栅格数据代码实例

Sep 30 Python

python 插入日期数据到Oracle实例

Mar 02 Python

在python中使用nohup命令说明

Apr 16 Python

Python引入多个模块及包的概念过程解析

Sep 21 Python

Python 结巴分词实现关键词抽取分析

Oct 21 #Python

恢复百度云盘本地误删的文件脚本(简单方法)

Oct 21 #Python

Python实现对百度云的文件上传(实例讲解)

Oct 21 #Python

Python3操作SQL Server数据库(实例讲解)

Oct 21 #Python

Python3实现简单可学习的手写体识别(实例讲解)

Oct 21 #Python

python虚拟环境virtualenv的使用教程

Oct 20 #Python

Python环境搭建之OpenCV的步骤方法

Oct 20 #Python

You might like

PHP类的使用实例代码讲解

2009/12/28 PHP

php写的AES加密解密类分享

2014/06/20 PHP

php+ajax无刷新分页实例详解

2015/12/07 PHP

解决安装WampServer时提示缺少msvcr110.dll文件的问题

2017/07/09 PHP

Laravel 不同生产环境服务器的判断实践

2019/10/15 PHP

JavaScript内核之基本概念

2011/10/21 Javascript

jQuery基本选择器选择元素使用介绍

2013/04/18 Javascript

JS常用正则表达式总结

2013/11/12 Javascript

Javascript编写2048小游戏

2015/07/07 Javascript

详解JavaScript的表达式与运算符

2015/11/30 Javascript

JavaScript 正则表达式中global模式的特性

2016/02/25 Javascript

JS实现iframe自适应高度的方法示例

2017/01/07 Javascript

js实现tab选项卡切换功能

2017/01/13 Javascript

基于canvas粒子系统的构建详解

2017/08/31 Javascript

详解angular笔记路由之angular-router

2017/09/12 Javascript

vue路由拦截及页面跳转的设置方法

2018/05/24 Javascript

js实现页面多个日期时间倒计时效果

2019/06/20 Javascript

js实现抽奖功能

2020/11/24 Javascript

[06:59]DOTA2-DPC中国联赛3月7日Recap集锦

2021/03/11 DOTA

Python实现的一个自动售饮料程序代码分享

2014/08/25 Python

Centos5.x下升级python到python2.7版本教程

2015/02/14 Python

Python3.5装饰器原理及应用实例详解

2019/04/30 Python

django从后台返回html代码的实例

2020/03/11 Python

解决阿里云邮件发送不能使用25端口问题

2020/08/07 Python

在pycharm中使用pipenv创建虚拟环境和安装django的详细教程

2020/11/30 Python

分享8款纯CSS3实现的搜索框功能

2017/09/14 HTML / CSS

html5使用canvas画三角形

2014/12/15 HTML / CSS

越南电子产品购物网站：FPT Shop

2017/12/02 全球购物

Farah官方网站：男士服装及配件

2019/11/01 全球购物

斯洛伐克香水和化妆品购物网站：Parfemy-Elnino.sk

2020/01/28 全球购物

short s1 = 1; s1 = s1 + 1;有什么错？ short s1 = 1; s1 += 1;有什么错？

2014/09/26 面试题

分公司经理岗位职责

2013/11/11 职场文书

离婚代理词范文

2015/05/23 职场文书

2015年财务人员个人工作总结

2015/07/27 职场文书

2019年关于小学生课外阅读情况的分析报告

2019/12/02 职场文书

matplotlib画混淆矩阵与正确率曲线的实例代码

2021/06/01 Python