Python模拟登入的N种方式(建议收藏)


Posted in Python onMay 31, 2020

这段时间在研究如何破解官网验证码,然后进行下一步的爬虫操作,然而一个多星期过去了,编写的代码去识别验证码的效率还是很低,尝试用了tesserorc库和百度的API接口,都无济于事,本以为追不上五月的小尾巴,突然想到我尝试了这么多方法何不为一篇破坑博客呢。

现在很多官网都会给出相应的反扒措施,就拿这个登入来说,如果你不登入账号那么你就只能获取微量的信息,甚至获取不了信息,这对我们爬虫来说是非常不友好的,但是我们总不可能每次都需要手动登入吧,一次二次你能接受,大工程呢?既然学了python,而不为用脚本代码帮你做这点事情呢?

图为简书登入模块:

Python模拟登入的N种方式(建议收藏)

不同方式优缺点对比:

突然想到一种可能更简单的方式,所以整理得三,不同情况参考不同用法!

如下:

方式 优点 缺点
requests的auth参数 极简 出现的次数很少
requests的session会话 维持cookies一致 需要构造一定参数
selenium自动化 最强的模拟登入 安装复杂,库名太多

以上就是三大登入的优缺点,个人推荐使用session去尝试模拟登入!

方式一: requests的auth参数:

这个是我无意在书上看到的。关于requests的高级用法中,提到了这点,这里就记录一下,个人觉得这种方式只可能出现在某网站中,学了也挺好的,省的限制观看次数,后续我也会更新如何破解vip视频的思路,有需要的关注我

使用类似场所:

Python模拟登入的N种方式(建议收藏)

用法很简单,代码如下:

# parasm: url : 网站
# parasm: username: 用户名
# parasm: password : 密码
import requests
url = '********'
r = requests.get(url, anth=('username', 'password'))
print(r.text)

还是一句话,这种方式极大可能出现在某网站中,其他情况基本不可能出现,那么就得使用下面二种方式了。

方式一: requests高级用法扩展:

相信很多人看书都不看全的,很多细节都在书中呢,下面扩展几种requests库的高级用法,很好用的东西。

超时处理: 某网站服务器搭建在国外,加载巨慢。代码可能抛出timeout : xxxx等情况,这个时候用它:

r = requests.get(url , timeout=30)

文件上传: 假如某网站需要上传文件,那么就使用它:

files = {'file': open('img.jpg', 'rb')}
r = requests.get(url, files=files)
print(r.text)

cookies设置: headers这个很多人都使用过吧,基本都是加一个代理头就完事了,其实也可以设置其他的参数,然后使用post请求,就可以简单的模拟登入一次了,用法如下:

这些字段一般都需要加上,常用的就是代理头user-agent,这个必须设置:

headers = {
'cookies': '浏览器复制',
'Host': '浏览器复制', 
'Referer' '浏览器复制'
'User-Agent': '浏览器复制'
}

方式二: requests的session会话使用:

会话是什么: 就好比你和朋友对接电话,你这头是客户端,朋友那头是服务端,你们接通电话,这个通话记录就代表一个会话,电话中,你可以通过声音知道是你朋友,在服务器中,你请求成功一次,客户端和服务端就维持了一个会话,这个会话能代表你的身份,那么这段时间在一个浏览器中,你进入网站就不需要在输入账号密码了,直到你退出浏览器,那么会话截至,下次登入就需要再次输入密码了。

很好的是,Session能很好的帮助我们维持会话,从而达到cookies的一致性。区别于一半的请求requests,就可以达到get 和 post 共同的作用;

基本用法如下:

s = requests.Session()
r = s.get(url)

那么我们使用会话从GitHub的模拟登入尝试下:

首先我们需要登入一次,看看需要构建什么参数:
登入网站

在这个界面就开启f12 , 不然看不了会话维持:

登入成功之后,如下图,查看构造参数:

Python模拟登入的N种方式(建议收藏)

打开这个From Data 会发现,authenticity_token 这个字段,我们可能构造不了,这个时候,就得回到 登入界面了, 打开源代码。F这个字段:

Python模拟登入的N种方式(建议收藏)

如图: 只需要爬取这个页面,获得这个参数 那么就可以构造登入的所有参数了, 爬虫代码如下:

def token(self):
    # 获得 authenticity_token 字段 方便下次模拟登入
		# login_url : 登入网址
    r = self.session.get(self.login_url, headers=self.headers)
    if r.status_code == 200:
      r.encoding = r.apparent_encoding
      html = etree.HTML(r.text)
      html = etree.tostring(html)
      html = etree.fromstring(html)
      tk = html.xpath('//*[@id="login"]/form/input[1]/@value')
      return tk

对于cookies的一致性,使用session 就已经搞定了这个问题,根据上图的Name字段中的session ,
我们可以找到会话网址: ‘https://github.com/session'

所以我们现在只需要构造一个函数去请求这个会话网址,就可以达到我们的要求了:

代码如下, 这里我构造了一个class类,账号密码用自己,或者前面传值过去,图中的函数是二个爬虫代码,可以根据需求设计:

def login(self):
    # 模拟登入
    post_date = {
      'commit': 'Sign in',
      'authenticity_token': self.token(),
      'ga_id': '1453216517.1584352055',
      'login': self.email,
      'password': self.password
    }

    # 打印仓库信息
    r = self.session.post(self.post_url, data=post_date, headers=self.headers)
    if r.status_code == 200:
      self.get_info_1(r.text)

    # 打印个人信息和邮箱
    r = self.session.get(self.logined_url, headers=self.headers)
    if r.status_code == 200:
      self.get_info_2(r.text)

会话登入到这里就结束了,主要是构造参数挺麻烦的,需要页面里寻找,看到这里给个关注和赞啦。

方式三: selenium模拟登入:

如何下载selenium相关的插件,我就不做介绍了,篇幅有限

使用selenium 就是需要考虑到表单的切换,和定位元素等,其他都很简单,这里用4399游戏网页做一个实例: 网址

点击登入:

Python模拟登入的N种方式(建议收藏)

弹出登入表单:

Python模拟登入的N种方式(建议收藏)

这里我们需要切换表单,不然输入不了,怎么找到这个表单的,很简单,整块的高亮就行:

代码如下:

from selenium import webdriver # 导入库
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC

browser = webdriver.Chrome() # 声明浏览器
browser.implicitly_wait(30) # 隐性等待 在规定的时间内,最长等待S秒
browser.get('http://www.4399.com') # 打开设置的网址
# ID定位 或者其他的都行
browser.find_element_by_id('login_tologin').click() # 点击登入界面
browser.switch_to.frame("popup_login_frame") # 进入表单中
browser.find_element_by_css_selector('#username').clear()
browser.find_element_by_id('username').send_keys('账号')
browser.find_element_by_id('username').send_keys(Keys.TAB)
browser.find_element_by_id('j-password').send_keys('密码')
browser.find_element_by_id('j-password').send_keys(Keys.ENTER)

我给的例子没有涉及到验证码,如果涉及到验证码,要不人工输入,要么破解验证码,或者交给打码平台,最好的方式就是绕过验证码,这个我也在思考如何去实现。以上就是这周的知识总结,有帮助的话,就点个赞和关注吧!

到此这篇关于Python模拟登入的N种方式的文章就介绍到这了,更多相关Python 模拟登入内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
分析Python中设计模式之Decorator装饰器模式的要点
Mar 02 Python
Python类的动态修改的实例方法
Mar 24 Python
Python中列表list以及list与数组array的相互转换实现方法
Sep 22 Python
python清除字符串中间空格的实例讲解
May 11 Python
对Python的多进程锁的使用方法详解
Feb 18 Python
使用Python将Mysql的查询数据导出到文件的方法
Feb 25 Python
Python Django Vue 项目创建过程详解
Jul 29 Python
Python 合并多个TXT文件并统计词频的实现
Aug 23 Python
使用IDLE的Python shell窗口实例详解
Nov 19 Python
Python实现RabbitMQ6种消息模型的示例代码
Mar 30 Python
Python 把两层列表展开平铺成一层(5种实现方式)
Apr 07 Python
Python数据结构之队列详解
Mar 21 Python
Python多线程正确用法实例解析
May 30 #Python
PyQt5实现简单的计算器
May 30 #Python
PyQt5实现登录页面
May 30 #Python
Python网页解析器使用实例详解
May 30 #Python
PyQt5实现画布小程序
May 30 #Python
Java ExcutorService优雅关闭方式解析
May 30 #Python
Python定时任务APScheduler原理及实例解析
May 30 #Python
You might like
?生?D片??C字串
2006/12/06 PHP
php Notice: Undefined index 错误提示解决方法
2010/08/29 PHP
php中用date函数获取当前时间有误的解决办法
2013/08/02 PHP
php使用curl抓取qq空间的访客信息示例
2014/02/28 PHP
ucenter中词语过滤原理分析
2016/07/13 PHP
PHP中用mysqli面向对象打开连接关闭mysql数据库的方法
2016/11/05 PHP
thinkPHP自定义类实现方法详解
2016/11/30 PHP
PHP defined()函数的使用图文详解
2019/07/20 PHP
php高性能日志系统 seaslog 的安装与使用方法分析
2020/02/29 PHP
JQuery实现样式设置、追加、移除与切换的方法
2015/06/11 Javascript
js jquery获取当前元素的兄弟级 上一个 下一个元素
2015/09/01 Javascript
JavaScript事件处理的方式(三种)
2016/04/26 Javascript
详谈js中数组(array)和对象(object)的区别
2017/02/27 Javascript
vue2.0嵌套路由实现豆瓣电影分页功能(附demo)
2017/03/13 Javascript
puppeteer实现html截图的示例代码
2019/01/10 Javascript
vue生命周期与钩子函数简单示例
2019/03/13 Javascript
浅谈Vue的响应式原理
2019/05/30 Javascript
js+audio实现音乐播放器
2020/09/13 Javascript
[51:39]DOTA2-DPC中国联赛 正赛 Magma vs LBZS BO3 第二场 2月7日
2021/03/11 DOTA
python计算时间差的方法
2015/05/20 Python
利用django如何解析用户上传的excel文件
2017/07/24 Python
python3解析库BeautifulSoup4的安装配置与基本用法
2018/06/26 Python
python3.5绘制随机漫步图
2018/08/27 Python
解决python给列表里添加字典时被最后一个覆盖的问题
2019/01/21 Python
快速排序的四种python实现(推荐)
2019/04/03 Python
django的聚合函数和aggregate、annotate方法使用详解
2019/07/23 Python
做一个能自适应高度的textarea的示例代码
2019/09/06 HTML / CSS
匡威荷兰官方网站:Converse荷兰
2018/10/24 全球购物
泰国时尚电商:POMELO Fashion
2020/03/11 全球购物
高中生学习生活的自我评价
2013/11/27 职场文书
中学生国旗下讲话稿
2014/04/26 职场文书
市场营销专业求职信
2014/06/17 职场文书
中学学校门卫岗位职责
2014/08/15 职场文书
2014年社区居委会主任重阳节讲话稿
2014/09/25 职场文书
人生遥控器观后感
2015/06/11 职场文书
2015年法律事务部工作总结
2015/07/27 职场文书