python爬虫selenium模块详解


Posted in Python onMarch 30, 2021

selenium模块

selenium基本概念

selenium优势

  • 便捷的获取网站中动态加载的数据
  • 便捷实现模拟登陆

selenium使用流程:

1.环境安装:pip install selenium

2.下载一个浏览器的驱动程序(谷歌浏览器)

3.实例化一个浏览器对象

基本使用

代码

from selenium import webdriver
from lxml import etree
from time import sleep

if __name__ == '__main__':

 bro = webdriver.Chrome(r"E:\google\Chrome\Application\chromedriver.exe")
 bro.get(url='http://scxk.nmpa.gov.cn:81/xk/')

 page_text = bro.page_source
 tree = etree.HTML(page_text)
 li_list = tree.xpath('//*[@id="gzlist"]/li')
 for li in li_list:
  name = li.xpath('./dl/@title')[0]
  print(name)
 sleep(5)
 bro.quit()

基于浏览器自动化的操作

代码

#编写基于浏览器自动化的操作代码

- 发起请求: get(url)

- 标签定位: find系列的方法

- 标签交互: send_ keys( 'xxx' )

- 执行js程序: excute_script('jsCod')

- 前进,后退: back(),forward( )

- 关闭浏览器: quit()

代码

https://www.taobao.com/

from selenium import webdriver
from time import sleep

bro = webdriver.Chrome(executable_path=r"E:\google\Chrome\Application\chromedriver.exe")

bro.get(url='https://www.taobao.com/')

#标签定位
search_input = bro.find_element_by_id('q')
sleep(2)
#执行一组js代码,使得滚轮向下滑动
bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
sleep(2)
#标签交互
search_input.send_keys('女装')
button = bro.find_element_by_class_name('btn-search')
button.click()

bro.get('https://www.baidu.com')
sleep(2)
bro.back()
sleep(2)
bro.forward()
sleep(5)
bro.quit()

selenium处理iframe:

- 如果定位的标签存在于iframe标签之中,则必须使用switch_to.frame(id)

- 动作链(拖动) : from selenium. webdriver import ActionChains
	- 实例化一个动作链对象: action = ActionChains (bro)
	- click_and_hold(div) :长按且点击操作
	- move_by_offset(x,y)
	- perform( )让动作链立即执行
	- action.release( )释放动作链对象

代码

https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable

from selenium import webdriver
from time import sleep
from selenium.webdriver import ActionChains
bro = webdriver.Chrome(executable_path=r"E:\google\Chrome\Application\chromedriver.exe")

bro.get('https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')

bro.switch_to.frame('iframeResult')

div = bro.find_element_by_id('draggable')

#动作链
action = ActionChains(bro)
action.click_and_hold(div)

for i in range(5):
 action.move_by_offset(17,0).perform()
 sleep(0.3)

#释放动作链
action.release()

bro.quit()

selenium模拟登陆QQ空间

代码

https://qzone.qq.com/

from selenium import webdriver
from time import sleep


bro = webdriver.Chrome(executable_path=r"E:\google\Chrome\Application\chromedriver.exe")
bro.get('https://qzone.qq.com/')
bro.switch_to.frame("login_frame")

switcher = bro.find_element_by_id('switcher_plogin')
switcher.click()

user_tag = bro.find_element_by_id('u')
password_tag = bro.find_element_by_id('p')
user_tag.send_keys('1234455')
password_tag.send_keys('qwer123')
sleep(1)

but = bro.find_element_by_id('login_button')
but.click()

无头浏览器和规避检测

代码

from selenium import webdriver
from time import sleep
#实现无可视化界面
from selenium.webdriver.chrome.options import Options
#实现规避检测
from selenium.webdriver import ChromeOptions

#实现无可视化界面
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
#实现规避检测
option = ChromeOptions()
option.add_experimental_option('excludeSwitches',['enable-automation'])

bro = webdriver.Chrome(executable_path=r"E:\google\Chrome\Application\chromedriver.exe",chrome_options=chrome_options,options=option)

bro.get('https://www.baidu.com')
print(bro.page_source)
sleep(2)
bro.quit()

到此这篇关于python爬虫selenium模块详解的文章就介绍到这了,更多相关python爬虫selenium模块内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
详解Python中的条件判断语句
May 14 Python
使用Python的urllib2模块处理url和图片的技巧两则
Feb 18 Python
利用Python读取文件的四种不同方法比对
May 18 Python
Python实现获取前100组勾股数的方法示例
May 04 Python
python实现黑客字幕雨效果
Jun 21 Python
用python一行代码得到数组中某个元素的个数方法
Jan 28 Python
Python 3 实现定义跨模块的全局变量和使用教程
Jul 07 Python
python实现图片插入文字
Nov 26 Python
python计算Content-MD5并获取文件的Content-MD5值方式
Apr 03 Python
python的dict判断key是否存在的方法
Dec 09 Python
Python 高级库15 个让新手爱不释手(推荐)
May 15 Python
Python 匹配文本并在其上一行追加文本
May 11 Python
python将图片转为矢量图的方法步骤
Mar 30 #Python
一文搞懂如何实现Go 超时控制
golang中的空接口使用详解
Mar 30 #Python
在 Golang 中实现 Cache::remember 方法详解
Mar 30 #Python
Python离线安装openpyxl模块的步骤
解决Jupyter-notebook不弹出默认浏览器的问题
Python爬取科目四考试题库的方法实现
You might like
php 用sock技术发送邮件的函数
2007/07/21 PHP
php中配置文件操作 如config.php文件的读取修改等操作
2012/07/07 PHP
单一index.php实现PHP任意层级文件夹遍历(Zjmainstay原创)
2012/07/31 PHP
PHP实现查询两个数组中不同元素的方法
2016/02/23 PHP
Codeigniter中集成smarty和adodb的方法
2016/03/04 PHP
PHP MYSQL简易交互式站点开发
2016/12/27 PHP
PHP封装的XML简单操作类完整实例
2017/11/13 PHP
PHP7内核CGI与FastCGI详解
2019/04/14 PHP
什么是DOM(Document Object Model)文档对象模型
2012/03/05 Javascript
php+js实现倒计时功能
2014/06/02 Javascript
js换图片效果可进行定时操作
2014/06/09 Javascript
JavaScript中的数组特性介绍
2014/12/30 Javascript
javascript实现将文件保存到本地方法汇总
2015/07/26 Javascript
JQuery.validationEngine表单验证插件(推荐)
2016/12/10 Javascript
jquery uploadify隐藏上传进度的实现方法
2017/02/06 Javascript
element-ui 表格数据时间格式化的方法
2018/08/24 Javascript
Vue $emit $refs子父组件间方法的调用实例
2018/09/12 Javascript
在vue中根据光标的显示与消失实现下拉列表
2019/09/29 Javascript
Vue为什么要谨慎使用$attrs与$listeners
2020/08/27 Javascript
vue项目打包后提交到git上为什么没有dist这个文件的解决方法
2020/09/16 Javascript
[45:59]EG vs OG 2018国际邀请赛小组赛BO2 第二场 8.17
2018/08/18 DOTA
在Python的web框架中编写创建日志的程序的教程
2015/04/30 Python
浅谈python迭代器
2017/11/08 Python
python操作redis方法总结
2018/06/06 Python
Python实现多线程的两种方式分析
2018/08/29 Python
Django 通过JS实现ajax过程详解
2019/07/30 Python
Python协程操作之gevent(yield阻塞,greenlet),协程实现多任务(有规律的交替协作执行)用法详解
2019/10/14 Python
解决python彩色螺旋线绘制引发的问题
2019/11/23 Python
python中selenium库的基本使用详解
2020/07/31 Python
html5中localStorage本地存储的简单使用
2017/06/16 HTML / CSS
高三毕业生自我鉴定
2013/12/20 职场文书
开工庆典邀请函范文
2014/01/16 职场文书
弘扬雷锋精神活动演讲稿
2014/03/04 职场文书
2014年全国法制宣传日宣传活动方案
2014/11/02 职场文书
导游词之昭君岛
2020/01/17 职场文书
html实现随机点名器的示例代码
2021/04/02 Javascript