编程 Python

基于python requests selenium爬取excel vba过程解析

Posted in Python onAugust 12, 2020

目的：基于办公与互联网隔离，自带的office软件没有带本地帮助工具，因此在写vba程序时比较不方便(后来发现07有自带，心中吐血，瞎折腾些什么）。所以想到通过爬虫在官方摘录下来作为参考。

目标网站：https://docs.microsoft.com/zh-cn/office/vba/api/overview/

所使工具:

python3.7,requests、selenium库

前端方面：使用了jquery、jstree(用于方便的制作无限层级菜单

设计思路：

1、分析目标页面，可分出两部分，左边时导航，右边是内容显示。

2、通过selenium对导航条进行深度遍历，取得导航条所有节点以及对应的链接，并以jstree的数据格式存储。

# 导航层级为
<ul>
  <li>
    <a>...
    <span>....

3、使用requests遍历所有链接取得相应主体页面。

实现：

#
# parent 上级节点
# wait_text 上级节点对应的xpath路径的文本项
# level,limit 仅方便测试使用
#
def GetMenuDick_jstree(parent,level,wait_text,limit=2):
  if level >= limit: return []
  parent.click()
  l = []
  num = 1
  new_wati_text = wait_text + '/following-sibling::ul' # 只需要等待ul出来就可以了/li[' + str(ele_num) + ']'
  try:
    wait.until(EC.presence_of_element_located((By.XPATH,new_wati_text)))
    # 查询子节点所有的 a节点和span节点（子菜单）
    childs = parent.find_elements_by_xpath('following-sibling::ul/li/span | following-sibling::ul/li/a')
    for i in childs:
      k = {}
      if i.get_attribute('role') == None:
        k['text'] = i.text
        # 如果是子菜单，进行深度遍历
        k['children'] = GetMenuDick_jstree(i,level+1,new_wati_text + '/li[' + str(num) + ']/span',limit)
      else:
        # 网页访问的Url无Html后缀，需要加上。去除无相关地址，形成相对路径。
        url_text = str(i.get_attribute('href')).replace('https://docs.microsoft.com/zh-cn/office/', '',1) + '.html'
        k['text'] = i.text
        k['a_attr'] = {"href":url_text,"target":"showframe"}
        lhref.append(str(i.get_attribute('href')))
      num = num + 1
      l.append(k)
    parent.click()  # 最后收起来
  except Exception as e:
    print('error message:',str(e),'error parent:' ,parent.text,' new_wati_text:',new_wati_text,'num:',str(num))
    lerror.append(parent.text)
  finally:
    return l

# data菜单，lhref为后续需要访问的地址。
# 找到第一个excel节点，从excel开始
data = []
lhref = []
lerror = []
k = {}
browser.get(start_url)
browser.set_page_load_timeout(10)  #超时设置
xpath_text = '//li[contains(@class,"tree")]/span[text()="Excel"][1]'
cl = browser.find_element_by_xpath(xpath_text)
k = {'text':'Excel'}
k['children'] = GetMenuDick_jstree(cl,1,xpath_text,20)
data.append(k)
# Writing JSON data
with open(r'templete\data.json', 'w', encoding='utf-8') as f:
  json.dump(data, f)

进行到这里，已经拥有了excel vba下所有的菜单信息以及对应的url。下来需要得到页面主体。

实现思路：

1、遍历所有url

2、通过url得到相应的文件名

#
#  根据网页地址，得到文件名，并创建相应文件夹
#
def create_file(url):
  t = 'https://docs.microsoft.com/zh-cn/office/'
  # 替换掉字眼，然后根据路径生成相应文件夹
  url = url.replace(t,"",1)
  lname = url.split('/')
  # 先判断有没有第一个文件夹
  path = lname[0]
  if not os.path.isdir(path):
    os.mkdir(path)
  for l in lname[1:-1]:
    path = path + '\\' + str(l)
    if not os.path.isdir(path):
      os.mkdir(path)
  if len(lname) > 1:
    path = path + '\\' + lname[-1] + '.html'
  return path

3、访问url得到主体信息储存。

# requests模式
# 循环遍历,如果错误，记录下来，以后再执行
had_lhref = []
error_lhref = []
num = 1
for url in lhref:
  try:
    had_lhref.append(url)
    path = create_file(url)
    resp = requests.get(url,timeout=5,headers = headers) # 设置访问超时，以及http头
    resp.encoding = 'utf-8'
    html = etree.HTML(resp.text)
    c = html.xpath('//main[@id="main"]')
    # tostring获取标签所有html内容，是字节类型，要decode为字符串
    content = html_head + etree.tostring(c[0], method='html').decode('utf-8')
    with open(path,'w', encoding='utf-8') as f:
      f.write(content)
  except Exception as e:
    print('error message:',str(e),'error url:',url)
    error_lhref.append(url)
  if num % 10 == 0 :
    print('done:',str(num) + '/' + str(len(lhref)),'error num:' + str(len(error_lhref)))
  #time.sleep(1) # 睡眠一下，防止被反
  num = num + 1

现在，菜单信息与内容都有了，需要构建自己的主页，这里使用了jstree;2个html，index.html,menu.html。

index.html:使用frame页面框架，相对隔离。

<!DOCTYPE html>
<html>

<head>
  <meta charset="UTF-8">
  <meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1, user-scalable=no">
  <title>参考文档</title>
  <script src="js/jquery.min.js"> </script>
</head>
<frameset rows="93%,7%">
  <frameset cols="20%,80%" frameborder="yes" framespacing="1">
    <frame src="menu.html" name="menuframe"/>
    <frame id="showframe" name="showframe" />
  </frameset>
  <frameset frameborder="no" framespacing="1">
    <frame src="a.html" />
  </frameset>
</frameset>

</html>

menu.html:

1、引入了data.json，这样在可以进行离线调用，使用ajax.get读取json的话，会提示跨域失败；

2、jstree会禁止<a>跳转事件，所有需要通过监听"change.tree"事件来进行跳转。

<!DOCTYPE html>
<html lang="en">

<head>
  <meta charset="UTF-8">
  <title>Title</title>
  <script src="js/jquery.min.js"></script>
  <link rel="stylesheet" href="themes/default/style.min.css" rel="external nofollow" />
  <script src="js/jstree.min.js"></script>
  <script type="text/javascript" src="data.json"></script>
</head>

<body>
  <div>

    <form id="s">
      <input type="search" id="q" />
      <button type="submit">Search</button>
    </form>
    <div id="container">

    </div>

    <div id="container"></div>
    <script>
      $(function () {
        $('#container').jstree({
          "plugins": ["search", "changed"],
          'core': {
            'data': data,
          }

        });
      });
      $('#container').on("changed.jstree", function (e, data) {
        //console.log(data.changed.selected.length); // newly selected
        //console.log(data.changed.deselected); // newly deselected
        if (data.changed.selected.length > 0){
          // 说明转换了，获取url
          var url = data.node.a_attr.href
          // console.log(url)
          if (url == "#"){

          }else{
            parent[data.node.a_attr.target].location.href = url
          }
        }else{

        }
      })

      $("#s").submit(function (e) {
        e.preventDefault();
        $("#container").jstree(true).search($("#q").val());
      });
    </script>
  </div>
</body>

</html>

以上，得到最后的本地版网页excel vba参考工具。最后，部分office自带本地版的vba参考工具，有点白干一场。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

基于python requests selenium爬取excel vba过程解析

- Author -

forxtz

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python 面向对象成员的访问约束

Dec 23 Python

Python httplib模块使用实例

Apr 11 Python

仅用50行代码实现一个Python编写的计算器的教程

Apr 17 Python

python列表的常用操作方法小结

May 21 Python

Python调用C++程序的方法详解

Jan 24 Python

用Python写王者荣耀刷金币脚本

Dec 21 Python

python OpenCV学习笔记实现二维直方图

Feb 08 Python

python实现微信每日一句自动发送给喜欢的人

Apr 29 Python

Django logging配置及使用详解

Jul 23 Python

Python可变对象与不可变对象原理解析

Feb 25 Python

python3 使用traceback定位异常实例

Mar 09 Python

只用50行Python代码爬取网络美女高清图片

Jun 02 Python

PyCharm+PyQt5+QtDesigner配置详解

Aug 12 #Python

Python自动发送和收取邮件的方法

Aug 12 #Python

Selenium webdriver添加cookie实现过程详解

Aug 12 #Python

Python如何设置指定窗口为前台活动窗口

Aug 12 #Python

Python面向对象实现方法总结

Aug 12 #Python

Python命名空间及作用域原理实例解析

Aug 12 #Python

python将字典内容写入json文件的实例代码

Aug 12 #Python

You might like

PHP Session变量不能传送到下一页的解决方法

2009/11/27 PHP

PHP curl模拟浏览器采集阿里巴巴的实现代码

2011/04/20 PHP

解析strtr函数的效率问题

2013/06/26 PHP

获取URL文件名后缀

2013/10/24 PHP

php实现过滤字符串中的中文和数字实例

2015/07/29 PHP

PHP利用curl发送HTTP请求的实例代码

2020/07/09 PHP

javascript 实现秒杀,团购倒计时展示的记录分享

2013/07/12 Javascript

时间戳转换为时间年月日时间的JS函数

2013/08/19 Javascript

JavaScript实现文本框中默认显示背景图片在获得焦点后消失的方法

2015/07/01 Javascript

jQuery实现的精美平滑二级下拉菜单效果代码

2016/03/28 Javascript

下雪了 javascript实现雪花飞舞

2020/08/02 Javascript

jQuery 检查某个元素在页面上是否存在实例代码

2016/10/27 Javascript

js实时获取窗口大小变化的实例代码

2016/11/18 Javascript

AngularJS实现动态切换样式的方法分析

2018/06/26 Javascript

微信小程序可滑动月日历组件使用详解

2019/10/21 Javascript

jquery简易手风琴插件的封装

2020/10/13 jQuery

[47:10]完美世界DOTA2联赛PWL S3 LBZS vs Rebirth 第二场 12.16

2020/12/18 DOTA

python与sqlite3实现解密chrome cookie实例代码

2018/01/20 Python

Python登录注册验证功能实现

2018/06/18 Python

对python中类的继承与方法重写介绍

2019/01/20 Python

Python 运行.py文件和交互式运行代码的区别详解

2019/07/02 Python

Python API自动化框架总结

2019/11/12 Python

python的slice notation的特殊用法详解

2019/12/27 Python

一个不错的HTML5 Canvas多层点击事件监听实例

2014/04/29 HTML / CSS

Sunglasses Shop德国站：欧洲排名第一的太阳镜网站

2017/08/01 全球购物

学校大课间活动方案

2014/01/30 职场文书

教师考察材料范文

2014/06/03 职场文书

二手车交易协议书标准版

2014/11/16 职场文书

2014年机关后勤工作总结

2014/12/16 职场文书

护理专业自我评价

2015/03/11 职场文书

2015年学校减负工作总结

2015/05/19 职场文书

校园广播站开场白

2015/06/01 职场文书

SpringBoot+Redis实现布隆过滤器的示例代码

2022/03/17 Java/Android

SpringBoot2零基础到精通之数据库专项精讲

2022/03/22 Java/Android

css中:last-child不生效的解决方法

2022/08/05 HTML / CSS

python pandas 解析(读取、写入)CSV 文件的操作方法

2022/12/24 Python