python 爬取学信网登录页面的例子


Posted in Python onAugust 13, 2019

我们以学信网为例爬取个人信息

**如果看不清楚

按照以下步骤:**

1.火狐为例 打开需要登录的网页?> F12 开发者模式 (鼠标右击,点击检查元素)?点击网络 ?>需要登录的页面登录下?> 点击网络找到 一个POST提交的链接点击?>找到post(注意该post中信息就是我们提交时需要构造的表单信息)

python 爬取学信网登录页面的例子

import requests
from bs4 import BeautifulSoup
from http import cookies
import urllib
import http.cookiejar

headers = {
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0',
  'Referer':'https://account.chsi.com.cn/passport/login?service=https://my.chsi.com.cn/archive/j_spring_cas_security_check',
}

session = requests.Session()
session.headers.update(headers)
username = 'xxx'
password = 'xxx'
url = 'https://account.chsi.com.cn/passport/login?service=https://my.chsi.com.cn/archive/j_spring_cas_security_check'
def login(username,password,lt,_eventId='submit'):   #模拟登入函数
  #构造表单数据
  data = { #需要传去的数据
      '_eventId':_eventId,
      'lt':lt,
      'password':password, 
      'submit':u'登录',
      'username':username, 
  }
  html = session.post(url,data=data,headers=headers)

def get_lt(url):    #解析登入界面_eventId
  html = session.get(url)
  #获取 lt
  soup = BeautifulSoup(html.text,'lxml',from_encoding="utf-8")
  lt=soup.find('input',type="hidden")['value']
  return lt

lt = get_lt(url)#获取登录form表单信息 以学信网为例
login(username,password,lt)
login_url = 'https://my.chsi.com.cn/archive/gdjy/xj/show.action'
per_html = session.get(login_url)
soup = BeautifulSoup(per_html.text,'lxml',from_encoding="utf-8")
print(soup)
for tag in soup.find_all('table',class_='mb-table'):
  print(tag)
  for tag1 in tag.find_all('td'):
    title= tag1.get_text(); 
    print(title)

以上这篇python 爬取学信网登录页面的例子就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python 不同对象比较大小示例探讨
Aug 21 Python
Python的Flask框架中集成CKeditor富文本编辑器的教程
Jun 13 Python
Python错误: SyntaxError: Non-ASCII character解决办法
Jun 08 Python
Python2.7编程中SQLite3基本操作方法示例
Aug 09 Python
django.db.utils.ProgrammingError: (1146, u“Table‘’ doesn’t exist”)问题的解决
Jul 13 Python
利用python如何在前程无忧高效投递简历
May 07 Python
python自带tkinter库实现棋盘覆盖图形界面
Jul 17 Python
python针对Oracle常见查询操作实例分析
Apr 30 Python
Python脚本破解压缩文件口令实例教程(zipfile)
Jun 14 Python
在Mac中配置Python虚拟环境过程解析
Jun 22 Python
Python文件操作及内置函数flush原理解析
Oct 13 Python
解决TensorFlow训练模型及保存数量限制的问题
Mar 03 Python
利用anaconda作为python的依赖库管理方法
Aug 13 #Python
基于Python的图像数据增强Data Augmentation解析
Aug 13 #Python
python通过txt文件批量安装依赖包的实现步骤
Aug 13 #Python
Python Multiprocessing多进程 使用tqdm显示进度条的实现
Aug 13 #Python
python如何将多个PDF进行合并
Aug 13 #Python
python批量读取文件名并写入txt文件中
Sep 05 #Python
Flask框架实现的前端RSA加密与后端Python解密功能详解
Aug 13 #Python
You might like
php实现首页链接查询 友情链接检查的代码
2010/01/05 PHP
Zend Framework教程之Autoloading用法详解
2016/03/08 PHP
php实现单笔转账到支付宝功能
2018/10/09 PHP
TP5框架实现一次选择多张图片并预览的方法示例
2020/04/04 PHP
javascript 获取select下拉列表值的代码
2009/09/07 Javascript
(jQuery,mootools,dojo)使用适合自己的编程别名命名
2010/09/14 Javascript
EXTJS记事本 当CompositeField遇上RowEditor
2011/07/31 Javascript
详细介绍8款超实用JavaScript框架
2013/10/25 Javascript
关闭时刷新父窗口两种方法
2014/05/07 Javascript
深入探寻seajs的模块化与加载方式
2015/04/14 Javascript
js实现的下拉框二级联动效果
2016/04/30 Javascript
canvas实现绘制吃豆鱼效果
2017/01/12 Javascript
webpack dll打包重复问题优化的解决
2018/10/10 Javascript
JavaScript手写数组的常用函数总结
2020/11/22 Javascript
Vue 数据响应式相关总结
2021/01/28 Vue.js
原生js实现无缝轮播图效果
2021/01/28 Javascript
[00:43]FTP典藏礼包 DOTA2三大英雄霸气新套装
2014/03/21 DOTA
[02:02]特效爆炸!DOTA2珍宝之瓶待你开启
2018/08/21 DOTA
python使用装饰器和线程限制函数执行时间的方法
2015/04/18 Python
python过滤字符串中不属于指定集合中字符的类实例
2015/06/30 Python
python简单图片操作:打开\显示\保存图像方法介绍
2017/11/23 Python
Python列表解析配合if else的方法
2018/06/23 Python
python实现字符串加密成纯数字
2019/03/19 Python
Django app配置多个数据库代码实例
2019/12/17 Python
Python 没有main函数的原因
2020/07/10 Python
CSS3 :default伪类选择器使用简介
2018/03/15 HTML / CSS
纯CSS3实现漂亮的input输入框动画样式库(Text input love)
2018/12/29 HTML / CSS
Html5上传图片 移动端、PC端通用代码
2016/06/08 HTML / CSS
巴西服装和鞋子购物网站:Marisa
2018/10/25 全球购物
HelloFresh奥地利:立即订购烹饪盒
2019/02/22 全球购物
道德之星事迹材料
2014/05/03 职场文书
大学生实习证明范文(5篇)
2014/09/18 职场文书
2014年连锁店圣诞节活动方案
2014/12/09 职场文书
难以忽视的真相观后感
2015/06/05 职场文书
公务员的复习计划书,请收下!
2019/07/15 职场文书
vue整合百度地图显示指定地点信息
2022/04/06 Vue.js