python爬虫爬取网页表格数据


Posted in Python onMarch 07, 2018

用python爬取网页表格数据,供大家参考,具体内容如下

from bs4 import BeautifulSoup 
import requests 
import csv 
import bs4 
 
 
#检查url地址 
def check_link(url): 
 try: 
   
  r = requests.get(url) 
  r.raise_for_status() 
  r.encoding = r.apparent_encoding 
  return r.text 
 except: 
  print('无法链接服务器!!!') 
 
 
#爬取资源 
def get_contents(ulist,rurl): 
 soup = BeautifulSoup(rurl,'lxml') 
 trs = soup.find_all('tr') 
 for tr in trs: 
  ui = [] 
  for td in tr: 
   ui.append(td.string) 
  ulist.append(ui) 
  
#保存资源 
def save_contents(urlist): 
 with open("D:/2016年中国企业500强排行榜.csv",'w') as f: 
  writer = csv.writer(f) 
  writer.writerow(['2016年中国企业500强排行榜']) 
  for i in range(len(urlist)): 
   writer.writerow([urlist[i][1],urlist[i][3],urlist[i][5]]) 
def main(): 
 urli = [] 
 url = "http://www.maigoo.com/news/463071.html" 
 rs = check_link(url) 
 get_contents(urli,rs) 
 save_contents(urli) 
 
main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
深入分析在Python模块顶层运行的代码引起的一个Bug
Jul 04 Python
python开启多个子进程并行运行的方法
Apr 18 Python
Python在Windows和在Linux下调用动态链接库的教程
Aug 18 Python
编写Python爬虫抓取暴走漫画上gif图片的实例分享
Apr 20 Python
python实现本地图片转存并重命名的示例代码
Oct 27 Python
Python设计模式之建造者模式实例详解
Jan 17 Python
用scikit-learn和pandas学习线性回归的方法
Jun 21 Python
ERLANG和PYTHON互通实现过程详解
Jul 05 Python
Python使用scrapy爬取阳光热线问政平台过程解析
Aug 14 Python
Python开发之基于模板匹配的信用卡数字识别功能
Jan 13 Python
Python引入多个模块及包的概念过程解析
Sep 21 Python
python批量提取图片信息并保存的实现
Feb 05 Python
python使用mysql的两种使用方式
Mar 07 #Python
python表格存取的方法
Mar 07 #Python
Django中Model的使用方法教程
Mar 07 #Python
python使用opencv按一定间隔截取视频帧
Mar 06 #Python
python+ffmpeg视频并发直播压力测试
Mar 06 #Python
小白如何入门Python? 制作一个网站为例
Mar 06 #Python
python调用系统ffmpeg实现视频截图、http发送
Mar 06 #Python
You might like
自己前几天写的无限分类类
2007/02/14 PHP
phpadmin如何导入导出大数据文件及php.ini参数修改
2013/02/18 PHP
str_replace只替换一次字符串的方法
2013/04/09 PHP
php中namespace use用法实例分析
2016/01/22 PHP
js Flash插入函数免激活代码
2009/03/31 Javascript
js与运算符和或运算符的妙用
2014/02/14 Javascript
Javascript中的apply()方法浅析
2015/03/15 Javascript
js实现图片轮播效果
2015/12/19 Javascript
轻松掌握JavaScript代理模式
2016/08/26 Javascript
JavaScript注入漏洞的原理及防范(详解)
2016/12/04 Javascript
jQuery中ztree 点击文本框弹出下拉框的实例代码
2017/02/05 Javascript
js实现返回顶部效果
2017/03/10 Javascript
Vue 进阶教程之v-model详解
2017/05/06 Javascript
vue-cli webpack 开发环境跨域详解
2017/05/18 Javascript
vue 组件 全局注册和局部注册的实现
2018/02/28 Javascript
详解Vue.directive 自定义指令
2019/03/27 Javascript
vue实现设置载入动画和初始化页面动画效果
2019/10/28 Javascript
在vue中实现嵌套页面(iframe)
2020/07/30 Javascript
JS遍历树层级关系实现原理解析
2020/08/31 Javascript
python操作xml文件示例
2014/04/07 Python
尝试使用Python多线程抓取代理服务器IP地址的示例
2015/11/09 Python
Python环境搭建之OpenCV的步骤方法
2017/10/20 Python
解决pycharm无法调用pip安装的包问题
2018/05/18 Python
pygame实现非图片按钮效果
2019/10/29 Python
解决Python命令行下退格,删除,方向键乱码(亲测有效)
2020/01/16 Python
Windows下Anaconda安装、换源与更新的方法
2020/04/17 Python
详解Python中import机制
2020/09/11 Python
通过实例解析Python文件操作实现步骤
2020/09/21 Python
windows系统Tensorflow2.x简单安装记录(图文)
2021/01/18 Python
HTML5几个设计和修改的页面范例分享
2015/09/29 HTML / CSS
AmazeUI 点击元素显示全屏的实现
2020/08/25 HTML / CSS
应用英语专业自荐信
2014/01/26 职场文书
医学生毕业自我鉴定
2014/03/26 职场文书
入党积极分子对十八届四中全会期盼的思想汇报
2014/10/17 职场文书
导游词之无锡梅园
2019/11/28 职场文书
Python装饰器的练习题
2021/11/23 Python