Python爬虫scrapy框架Cookie池(微博Cookie池)的使用


Posted in Python onJanuary 13, 2021

下载代码Cookie池(这里主要是微博登录,也可以自己配置置其他的站点网址)

下载代码GitHub:https://github.com/Python3WebSpider/CookiesPool

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

下载安装过后注意看网页下面的相关基础配置和操作!!!!!!!!!!!!!

自己的设置主要有下面几步:

1、配置其他设置

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

2、设置使用的浏览器

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

3、设置模拟登陆

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

源码cookies.py的修改(以下两处不修改可能会产生bug)

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

 Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

4、获取cookie

随机获取Cookies: http://localhost:5000/weibo/random(注意:cookie使用时是需要后期处理的!!)

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

简单的处理方式,如下代码(偶尔需要对获取的cookie处理):

def get_cookie(self):
    return requests.get('http://127.0.0.1:5000/weibo/random').text
 
  def stringToDict(self,cookie):
    itemDict = {}
    items = cookie.replace(':', '=').split(',')
    for item in items:
      key = item.split('=')[0].replace(' ', '').strip(' "')
      value = item.split('=')[1].strip(' "')
      itemDict[key] = value
    return itemDict

scrapy爬虫的使用示例(爬取微博):

middlewares.py中自定义请求中间件

def start_requests(self):
    ua = UserAgent()
    headers = {
      'User-Agent': ua.random,
      }
    cookies = self.stringToDict(str(self.get_cookie().strip('{|}')))
 
    yield scrapy.Request(url=self.start_urls[0], headers=headers,
               cookies=cookies, callback=self.parse)
cookies = self.stringToDict(str(self.get_cookie().strip('{|}')))

    yield scrapy.Request(url=self.start_urls[0], headers=headers,
               cookies=cookies, callback=self.parse)

settings.py 中的配置:

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

5、录入账号和密码:

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

格式规定(账号----密码)

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

6、验证:(注意:使用cmd)

Python爬虫scrapy框架Cookie池(微博Cookie池)的使用

7、使用时注意保持cmd打开运行!!

使用时一定要打开cmd,并运行如第6步。

得到Cookie是判断是否处理处理Cookie(几乎都需要!!)类比第4步!!!

到此这篇关于Python爬虫scrapy框架Cookie池(微博Cookie池)的使用的文章就介绍到这了,更多相关scrapy Cookie池内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python比较两个图片相似度的方法
Mar 13 Python
Pthon批量处理将pdb文件生成dssp文件
Jun 21 Python
使用Python从零开始撸一个区块链
Mar 14 Python
Python Logging 日志记录入门学习
Jun 02 Python
Python实现绘制双柱状图并显示数值功能示例
Jun 23 Python
PyQt5 QTableView设置某一列不可编辑的方法
Jun 25 Python
对Python中小整数对象池和大整数对象池的使用详解
Jul 09 Python
使用Windows批处理和WMI设置Python的环境变量方法
Aug 14 Python
使用TensorFlow搭建一个全连接神经网络教程
Feb 06 Python
python多线程实现同时执行两个while循环的操作
May 02 Python
Python3.8.2安装包及安装教程图文详解(附安装包)
Nov 28 Python
Python实现疫情地图可视化
Feb 05 Python
matplotlib交互式数据光标实现(mplcursors)
Jan 13 #Python
Python 生成短8位唯一id实战教程
Jan 13 #Python
python uuid生成唯一id或str的最简单案例
Jan 13 #Python
全网最全python库selenium自动化使用详细教程
Jan 12 #Python
[原创]赚疯了!转手立赚800+?大佬的python「抢茅台脚本」使用教程
Jan 12 #Python
五分钟学会怎么用python做一个简单的贪吃蛇
Jan 12 #Python
python生成word合同的实例方法
Jan 12 #Python
You might like
PHP 开发工具
2006/12/06 PHP
ThinkPHP中URL路径访问与模块控制器之间的关系
2014/08/23 PHP
php保存二进制原始数据为图片的程序代码
2014/10/14 PHP
关于扩展 Laravel 默认 Session 中间件导致的 Session 写入失效问题分析
2016/01/08 PHP
PHP安装GeoIP扩展根据IP获取地理位置及计算距离的方法
2016/07/01 PHP
PHP云打印类完整示例
2016/10/15 PHP
yii2 commands模式以及配置crontab定时任务的方法
2017/08/19 PHP
HTA版JSMin(省略修饰语若干)基于javascript语言编写
2009/12/24 Javascript
基于JQuery实现滚动到页面底端时自动加载更多信息
2014/01/31 Javascript
jQuery实现的超酷苹果风格图标滑出菜单效果代码
2015/09/16 Javascript
举例讲解jQuery中可见性过滤选择器的使用
2016/04/18 Javascript
javascript和jquery实现用户登录验证
2016/05/04 Javascript
JS提示:Uncaught SyntaxError:Unexpected token ) 错误的解决方法
2016/08/19 Javascript
原生js代码实现图片放大境效果
2016/10/30 Javascript
浅谈js中startsWith 函数不能在任何浏览器兼容的问题
2017/03/01 Javascript
在ABP框架中使用BootstrapTable组件的方法
2017/07/31 Javascript
promise和co搭配生成器函数方式解决js代码异步流程的比较
2018/05/25 Javascript
微信小程序 select 下拉框组件功能
2019/09/09 Javascript
vue3 源码解读之 time slicing的使用方法
2019/10/31 Javascript
Vue如何将页面导出成PDF文件
2020/08/17 Javascript
[00:37]DOTA2上海特级锦标赛 OG战队宣传片
2016/03/03 DOTA
python检查序列seq是否含有aset中项的方法
2015/06/30 Python
PyQt5每天必学之像素图控件QPixmap
2018/04/19 Python
解决pytorch 模型复制的一些问题
2021/03/03 Python
HTML5 body设置自适应全屏
2020/05/07 HTML / CSS
马来西亚网上购物平台:ezbuy
2018/02/13 全球购物
香蕉共和国加拿大官网:Banana Republic加拿大
2018/08/06 全球购物
《一个中国孩子的呼声》教学反思
2014/02/12 职场文书
事业单位考核材料
2014/05/21 职场文书
监督检查工作方案
2014/05/28 职场文书
商家认证委托书格式
2014/10/16 职场文书
2015年驾驶员工作总结
2015/04/29 职场文书
如何使用Maxwell实时同步mysql数据
2021/04/08 MySQL
Python3接口性能测试实例代码
2021/06/20 Python
解决pycharm下载库时出现Failed to install package的问题
2021/09/04 Python
分享CSS盒子模型隐藏的几种方式
2022/02/28 HTML / CSS