快速一键生成Python爬虫请求头


Posted in Python onMarch 04, 2021

今天介绍个神奇的网站!堪称爬虫偷懒的神器!

我们在写爬虫,构建网络请求的时候,不可避免地要添加请求头( headers ),以 mdn 学习区为例,我们的请求头是这样的:

快速一键生成Python爬虫请求头

一般来说,我们只要添加 user-agent 就能满足绝大部分需求了,Python 代码如下:

import requests

headers = {
 #'authority': 'developer.mozilla.org',
 #'pragma': 'no-cache',
 #'cache-control': 'no-cache',
 #'upgrade-insecure-requests': '1',
 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 YaBrowser/19.7.0.1635 Yowser/2.5 Safari/537.36',
 #'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
 #'accept-encoding': 'gzip, deflate, br',
 #'accept-language': 'zh-CN,zh-TW;q=0.9,zh;q=0.8,en-US;q=0.7,en;q=0.6',
 #'cookie': 你的cookie,
}

response = requests.get('https://developer.mozilla.org/zh-CN/docs/learn', headers=headers)

但是有些请求,我们要把特定的 headers 参数添加上才能获得正确的网络响应,不知道哪个参数是必要的情况下,就要先把所有参数都添加上,再逐个排除。

但是手动复制粘贴 headers 字典里的每一个键值对太费事了

一个不那么方便的解决方案:

用正则表达式或者直接字符串替换,把 headers 字符串直接转化为字典,封装成函数方便以后反复调用。

有的人喜欢用这种方法,每次复制headers信息,然后调用自己封装好的函数,但我觉得还是挺麻烦的。

那么还有没有快速一键生成 Python 爬虫请求头的方法呢?
这里给大家介绍两个:

  • 网站在线转换
  • Postman

实战演练

抓取网站:https://developer.mozilla.org...

网站在线转换

1,Chrome 打开开发者选项( f12 )---> network 选项卡 ---> 刷新页面,获取请求 ---> 找到页面信息对应的请求 (通过请求的名称、后缀和 response 内容来判断)

快速一键生成Python爬虫请求头

2,右键,copy ---> copy as cURL (bash),注意不是【copy as cURL (cmd)】

快速一键生成Python爬虫请求头

3,打开网站,https://curl.trillworks.com/,粘贴 cURL (bash) 到左边 curl command,右边会自动出 Python 代码

快速一键生成Python爬虫请求头

4,生成代码如下图

快速一键生成Python爬虫请求头

5,print ( response.text ) 就可以直接打印网页源代码啦!

Postman

1,下载 postman ( Chrome 也有个 postman 的插件,操作应该差不多)

2,打开 postman,弹出的界面可以直接关掉

快速一键生成Python爬虫请求头

3,import --> paste raw text,在 Chrome 里复制 curl (bash),粘贴到下面的对话框里,点击 import 按钮

快速一键生成Python爬虫请求头

4,点击 send,模拟网络请求,下方可查看源代码

快速一键生成Python爬虫请求头

5,确保源代码正常后,点击 code

快速一键生成Python爬虫请求头

6,左上角可以选择编程语言,右上角复制到剪贴板

快速一键生成Python爬虫请求头

大功告成!

其实我本人平时都是用第一种,网站比较稳定,基本没出现过异常;有了这个神器就不用自己再构造请求头了,先一键生成,然后再根据需求调一调就好了,几秒钟就搞定了。

以上就是快速一键生成Python爬虫请求头的详细内容,更多关于快速一键生成Python爬虫请求头的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python实现检测服务器是否可以ping通的2种方法
Jan 01 Python
Python实现爬取知乎神回复简单爬虫代码分享
Jan 04 Python
Python异常学习笔记
Feb 03 Python
Python时间获取及转换知识汇总
Jan 11 Python
在Django同1个页面中的多表单处理详解
Jan 25 Python
Django跨域请求CSRF的方法示例
Nov 11 Python
Python实现非正太分布的异常值检测方式
Dec 09 Python
Python Sphinx使用实例及问题解决
Jan 17 Python
Python 时间戳之获取整点凌晨时间戳的操作方法
Jan 28 Python
python如何导出微信公众号文章方法详解
Aug 31 Python
Python命令行参数argv和argparse该如何使用
Feb 08 Python
python pygame 开发五子棋双人对弈
May 02 Python
10个顶级Python实用库推荐
Mar 04 #Python
pytorch 把图片数据转化成tensor的操作
Mar 04 #Python
pytorch 计算Parameter和FLOP的操作
Mar 04 #Python
从Pytorch模型pth文件中读取参数成numpy矩阵的操作
Mar 04 #Python
python 如何用urllib与服务端交互(发送和接收数据)
Mar 04 #Python
python 求两个向量的顺时针夹角操作
Mar 04 #Python
python 制作磁力搜索工具
Mar 04 #Python
You might like
php实现的SESSION类
2014/12/02 PHP
thinkPHP使用post方式查询时分页失效的解决方法
2015/12/09 PHP
yii数据库的查询方法
2015/12/28 PHP
详解PHP的Laravel框架中Eloquent对象关系映射使用
2016/02/26 PHP
Yii遍历行下每列数据的方法
2016/10/17 PHP
php 中htmlentities导致中文无法查询问题
2018/09/10 PHP
Yii2.0 RESTful API 基础配置教程详解
2018/12/26 PHP
PHP+Ajax简单get验证操作示例
2019/03/02 PHP
Thinkphp整合阿里云OSS图片上传实例代码
2019/04/28 PHP
初窥JQuery(二) 事件机制(1)
2010/11/25 Javascript
JAVASCRIPT车架号识别/验证函数代码 汽车车架号验证程序
2012/01/08 Javascript
JS去除数组重复值的五种不同方法
2013/09/06 Javascript
JavaScript作用域与作用域链深入解析
2013/12/06 Javascript
浅析js设置控件的readonly与enabled属性问题
2013/12/25 Javascript
结合JQ1.9通过js正则判断各种浏览器版本的方法
2013/12/30 Javascript
动态加载jquery库的方法
2014/02/12 Javascript
jquery+json实现动态商品内容展示的方法
2016/01/14 Javascript
微信小程序 window_x64环境搭建
2016/09/30 Javascript
Node.js的文件权限及读写flag详解
2016/10/11 Javascript
js每隔两秒输出数组中的一项(实例)
2017/05/28 Javascript
Phaser.js实现简单的跑酷游戏附源码下载
2018/10/26 Javascript
JavaScript冒泡算法原理与实现方法深入理解
2020/06/04 Javascript
python中使用序列的方法
2015/08/03 Python
详解python发送各类邮件的主要方法
2016/12/22 Python
使用python制作一个解压缩软件
2019/11/13 Python
Python爬虫headers处理及网络超时问题解决方案
2020/06/19 Python
迪卡侬印度官网:购买所有体育用品
2017/06/24 全球购物
广告学专业毕业生自荐信
2013/09/24 职场文书
危爆物品安全大检查大整治工作方案
2014/05/03 职场文书
应届生求职信
2014/05/31 职场文书
学校食堂标语
2014/10/06 职场文书
优秀班组事迹材料
2014/12/24 职场文书
运动会100米加油稿
2015/07/21 职场文书
新郎婚礼致辞
2015/07/27 职场文书
八年级英语教学反思
2016/02/15 职场文书
Mysql索引失效 数据库表中有索引还是查询很慢
2022/05/15 MySQL