Python爬虫使用脚本登录Github并查看信息


Posted in Python onJuly 16, 2018

前言分析目标网站的登录方式

目标地址: https://github.com/login   

登录方式做出分析:

第一,用form表单方式提交信息,

第二,有csrf_token,

第三 ,是以post请求发送用户名和密码时,需要第一次get请求的cookie

第四,登录成功以后,请求其他页面是只需要带第一次登录成功以后返回的cookie就可以。

以get发送的请求获取我们想要的token和cookie

Python爬虫使用脚本登录Github并查看信息

Python爬虫使用脚本登录Github并查看信息

代码:

import requests  
from bs4 import BeautifulSoup
r1 = requests.get('https://github.com/login')
soup = BeautifulSoup(r1.text,features='lxml') #生成soup 对象
s1 = soup.find(name='input',attrs={'name':'authenticity_token'}).get('value') 
#查到我们要的token
r1_cookies = r1.cookies.get_dict() # 下次提交用户名时用的cookie
# print(r1_cookies)  
# print(s1)

#结果::

{'logged_in': 'no', '_gh_sess': 'VDFWa2hJWjFMb1hpRUFLRDVhUmc3MXg1Tk02TDhsUnhDMERuNGpyT2Y4STlQZ2xCV1lCZEFhK21wdFR1bkpGYUV0WEJzcDEydWFzcm93
aVc4Nk91Q2JicmtRV0NIQ0lRSWM4aFhrSVFYbCtCczBwdnhVN0YySVJJNUFpQnhyTzNuRkJwNDJZUWxUcEk2M2JkM3VSMDdXVHNOY1htQkthckJQZDJyUVR2RzBNUkU3VnltRVF2U
m1admU3c3YzSGlyVnVZVm0ycnA1eUhET1JRVWNLN0pSbndKWjljMGttNG5URWJ1eU8rQjZXNEMxVEthcGVObDFBY2gvc2ZzWXcvWWZab29wQWJyU0l6cmZscWhBQUlzYTA3dTRtb
3l1S0hDYytHY2V1SUhEWlZvVlZoSWZpTzBjNmlidFF2dzI2bWgtLTJON1lqbm5jWUtSYmtiVEM1clJPakE9PQ%3D%3D--897dbc36c123940c8eae5d86f276dead8318fd6c'}
pRz0wapEbu5shksGCeSN0FijWoU9ALw8EPUsXlqgcw1Ezirl0VbSKvkTYqIe8VhxhPH2H/uzGaV6XX+yjTGoVA==

获取这两个值就可以,进行下一步发送登录请求:

第二步post方式提交用户名密码

Python爬虫使用脚本登录Github并查看信息

Python爬虫使用脚本登录Github并查看信息

代码::

这个代码接着上面的get请求,只是post请求的部分,

r2 = requests.post(
  'https://github.com/session',
  data ={
    'commit':'Sign in',
    'utf8':'✓',
    'authenticity_token':s1,
    'login':'541756569@qq.com',
    'password':'用户名密码'         # 填上正确的用户名即可
  },
  cookies = r1.cookies.get_dict(),    # 这里需要第一次的cookie
)
print(r2.cookies.get_dict())   # 这个是成功以后的cookie

成功以后就返回登录页面的信息。

基于post登录成功后查看个人详情页。

这里只需要带着登录成功以后的cookie 就可以

#完整代码

import requests
from bs4 import BeautifulSoup
r1 = requests.get('https://github.com/login')
soup = BeautifulSoup(r1.text,features='lxml')
s1 = soup.find(name='input',attrs={'name':'authenticity_token'}).get('value')
r1_cookies = r1.cookies.get_dict()
print(r1_cookies)
print(s1)
r2 = requests.post(
  'https://github.com/session',
  data ={
    'commit':'Sign in',
    'utf8':'✓',
    'authenticity_token':s1,
    'login':'541756569@qq.com',
    'password':'密码'
  },
  cookies = r1.cookies.get_dict(),
)

查看个人详情页

print(r2.cookies.get_dict())
 r3 = requests.get(
    'https://github.com/13131052183/product',  #查看个人的详情页
    cookies = r2.cookies.get_dict()
 )
 print(r3.text)

总结

以上所述是小编给大家介绍的Python爬虫使用脚本登录Github并查看信息,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
python开发的小球完全弹性碰撞游戏代码
Oct 15 Python
Python标准库与第三方库详解
Jul 22 Python
详细介绍Ruby中的正则表达式
Apr 10 Python
Python lxml模块安装教程
Jun 02 Python
Python中多线程的创建及基本调用方法
Jul 08 Python
Python编程之基于概率论的分类方法:朴素贝叶斯
Nov 11 Python
python中的变量如何开辟内存
Jun 26 Python
Python的条件表达式和lambda表达式实例
Jan 31 Python
python按比例随机切分数据的实现
Jul 11 Python
Python字典推导式将cookie字符串转化为字典解析
Aug 10 Python
Pycharm IDE的安装和使用教程详解
Apr 30 Python
浅谈TensorFlow之稀疏张量表示
Jun 30 Python
django认证系统实现自定义权限管理的方法
Jul 16 #Python
Sanic框架路由用法实例分析
Jul 16 #Python
Sanic框架安装与简单入门示例
Jul 16 #Python
python 除法保留两位小数点的方法
Jul 16 #Python
Python自定义装饰器原理与用法实例分析
Jul 16 #Python
python 正确保留多位小数的实例
Jul 16 #Python
浅谈Python里面小数点精度的控制
Jul 16 #Python
You might like
laravel 关联关系遍历数组的例子
2019/10/10 PHP
js 判断 enter 事件
2009/02/12 Javascript
JavaScript中使用正则匹配多条,且获取每条中的分组数据
2010/11/30 Javascript
js面向对象 多种创建对象方法小结
2012/05/21 Javascript
js动态添加事件并可传参数示例代码
2013/10/21 Javascript
JQ获取动态加载的图片大小的正确方法分享
2013/11/08 Javascript
js读取配置文件自写
2014/02/11 Javascript
邮箱下拉自动填充选择示例代码附图
2014/04/03 Javascript
Node.js程序中的本地文件操作用法小结
2016/03/06 Javascript
Node.js操作mysql数据库增删改查
2016/03/30 Javascript
js实现div模拟模态对话框展现URL内容
2016/05/27 Javascript
json实现添加、遍历与删除属性的方法
2016/06/17 Javascript
Google 地图类型详解及示例代码
2016/08/06 Javascript
基于js实现checkbox批量选中操作
2016/11/22 Javascript
自定义require函数让浏览器按需加载Js文件
2016/11/24 Javascript
jquery实现文字单行横移或翻转(上下、左右跳转)
2017/01/08 Javascript
在 Node.js 中使用 async 函数的方法
2017/11/17 Javascript
详解小程序设置缓存并且不覆盖原有数据
2019/04/15 Javascript
layUI实现三级导航菜单效果
2019/07/26 Javascript
node.js使用fs读取文件出错的解决方案
2019/10/23 Javascript
Python实现读写INI配置文件的方法示例
2018/06/09 Python
Python实现的NN神经网络算法完整示例
2018/06/19 Python
python实现文本进度条 程序进度条 加载进度条 单行刷新功能
2019/07/03 Python
Python ORM编程基础示例
2020/02/02 Python
canvas实现漂亮的下雨效果的示例
2018/04/18 HTML / CSS
在html页面中取得session中的值的方法
2020/08/11 HTML / CSS
英国领先品牌手动工具和电动工具供应商:Tooled Up
2018/11/24 全球购物
金额转换,阿拉伯数字的金额转换成中国传统的形式如:(¥1011)-> (一千零一拾一元整)输出
2015/05/29 面试题
请假条标准格式规范
2014/04/10 职场文书
2014年有孩子的离婚协议书范本
2014/10/08 职场文书
2014年度培训工作总结
2014/11/27 职场文书
高中班主任评语
2014/12/30 职场文书
实习计划书范文
2015/01/16 职场文书
冲出亚马逊观后感
2015/06/03 职场文书
Python实战之用tkinter库做一个鼠标模拟点击器
2021/04/27 Python
Java Lambda表达式常用的函数式接口
2022/04/07 Java/Android