python爬虫爬取网页表格数据


Posted in Python onMarch 07, 2018

用python爬取网页表格数据,供大家参考,具体内容如下

from bs4 import BeautifulSoup 
import requests 
import csv 
import bs4 
 
 
#检查url地址 
def check_link(url): 
 try: 
   
  r = requests.get(url) 
  r.raise_for_status() 
  r.encoding = r.apparent_encoding 
  return r.text 
 except: 
  print('无法链接服务器!!!') 
 
 
#爬取资源 
def get_contents(ulist,rurl): 
 soup = BeautifulSoup(rurl,'lxml') 
 trs = soup.find_all('tr') 
 for tr in trs: 
  ui = [] 
  for td in tr: 
   ui.append(td.string) 
  ulist.append(ui) 
  
#保存资源 
def save_contents(urlist): 
 with open("D:/2016年中国企业500强排行榜.csv",'w') as f: 
  writer = csv.writer(f) 
  writer.writerow(['2016年中国企业500强排行榜']) 
  for i in range(len(urlist)): 
   writer.writerow([urlist[i][1],urlist[i][3],urlist[i][5]]) 
def main(): 
 urli = [] 
 url = "http://www.maigoo.com/news/463071.html" 
 rs = check_link(url) 
 get_contents(urli,rs) 
 save_contents(urli) 
 
main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python元组操作实例分析【创建、赋值、更新、删除等】
Jul 24 Python
Python利用公共键如何对字典列表进行排序详解
May 19 Python
python使用tornado实现简单爬虫
Jul 28 Python
Python使用pyshp库读取shapefile信息的方法
Dec 29 Python
Python企业编码生成系统总体系统设计概述
Jul 26 Python
利用Python实现kNN算法的代码
Aug 16 Python
python manage.py runserver流程解析
Nov 08 Python
python的scipy实现插值的示例代码
Nov 12 Python
python实现替换word中的关键文字(使用通配符)
Feb 13 Python
python 如何实现遗传算法
Sep 22 Python
Python使用Web框架Flask开发项目
Jun 01 Python
Python中的socket网络模块介绍
Jul 23 Python
python使用mysql的两种使用方式
Mar 07 #Python
python表格存取的方法
Mar 07 #Python
Django中Model的使用方法教程
Mar 07 #Python
python使用opencv按一定间隔截取视频帧
Mar 06 #Python
python+ffmpeg视频并发直播压力测试
Mar 06 #Python
小白如何入门Python? 制作一个网站为例
Mar 06 #Python
python调用系统ffmpeg实现视频截图、http发送
Mar 06 #Python
You might like
PHP设计模式 注册表模式
2012/02/05 PHP
PHP生成唯一的促销/优惠/折扣码(附源码)
2012/12/28 PHP
Bookmarklet实现启动jQuery(模仿 云输入法)
2010/09/15 Javascript
javascript写的简单的计算器,内容很多,方法实用,推荐
2011/12/29 Javascript
javascript实现焦点滚动图效果 具体方法
2013/06/24 Javascript
常规表格多表头查询示例
2014/02/21 Javascript
JavaScript获取鼠标移动时的坐标(兼容IE8、chome谷歌、Firefox)
2014/09/13 Javascript
jQuery中Ajax的load方法详解
2015/01/14 Javascript
JavaScript数据类型检测代码分享
2015/01/26 Javascript
JavaScript小技巧整理
2015/12/30 Javascript
JS面向对象(3)之Object类,静态属性,闭包,私有属性, call和apply的使用,继承的三种实现方法
2016/02/25 Javascript
最丑的时钟效果!js canvas时钟制作方法
2016/08/15 Javascript
将form表单通过ajax实现无刷新提交的简单实例
2016/10/12 Javascript
JS常见疑难点分析之match,charAt,charCodeAt,map,search用法分析
2016/12/25 Javascript
jQuery中select与datalist制作下拉菜单时的区别浅析
2016/12/30 Javascript
selenium 与 chrome 进行qq登录并发邮件操作实例详解
2017/04/06 Javascript
从零开始学习Node.js系列教程六:EventEmitter发送和接收事件的方法示例
2017/04/13 Javascript
JavaScript标准对象_动力节点Java学院整理
2017/06/27 Javascript
vue集成百度UEditor富文本编辑器使用教程
2018/09/21 Javascript
JS+CSS实现随机点名(实例代码)
2019/11/04 Javascript
微信小程序点击item使之滚动到屏幕中间位置
2020/03/25 Javascript
vue项目中播放rtmp视频文件流的方法
2020/09/17 Javascript
使用Python的Twisted框架编写非阻塞程序的代码示例
2016/05/25 Python
关于Python中Inf与Nan的判断问题详解
2017/02/08 Python
python实现对指定输入的字符串逆序输出的6种方法
2018/04/26 Python
Django中URL的参数传递的实现
2019/08/04 Python
浅谈python print(xx, flush = True) 全网最清晰的解释
2020/02/21 Python
python针对Oracle常见查询操作实例分析
2020/04/30 Python
C#软件工程师英语面试题
2015/06/07 面试题
迎接领导欢迎词
2014/01/11 职场文书
师德演讲稿范文
2014/05/06 职场文书
计算机专业自荐信
2014/05/24 职场文书
行政执法作风整顿剖析材料
2014/10/11 职场文书
2015关爱留守儿童工作总结
2014/12/12 职场文书
python not运算符的实例用法
2021/06/30 Python
nginx中proxy_pass各种用法详解
2021/11/07 Servers