python爬虫爬取网页表格数据


Posted in Python onMarch 07, 2018

用python爬取网页表格数据,供大家参考,具体内容如下

from bs4 import BeautifulSoup 
import requests 
import csv 
import bs4 
 
 
#检查url地址 
def check_link(url): 
 try: 
   
  r = requests.get(url) 
  r.raise_for_status() 
  r.encoding = r.apparent_encoding 
  return r.text 
 except: 
  print('无法链接服务器!!!') 
 
 
#爬取资源 
def get_contents(ulist,rurl): 
 soup = BeautifulSoup(rurl,'lxml') 
 trs = soup.find_all('tr') 
 for tr in trs: 
  ui = [] 
  for td in tr: 
   ui.append(td.string) 
  ulist.append(ui) 
  
#保存资源 
def save_contents(urlist): 
 with open("D:/2016年中国企业500强排行榜.csv",'w') as f: 
  writer = csv.writer(f) 
  writer.writerow(['2016年中国企业500强排行榜']) 
  for i in range(len(urlist)): 
   writer.writerow([urlist[i][1],urlist[i][3],urlist[i][5]]) 
def main(): 
 urli = [] 
 url = "http://www.maigoo.com/news/463071.html" 
 rs = check_link(url) 
 get_contents(urli,rs) 
 save_contents(urli) 
 
main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python中list列表的高级函数
May 17 Python
Python 备份程序代码实现
Mar 06 Python
python自动化脚本安装指定版本python环境详解
Sep 14 Python
python3.6 +tkinter GUI编程 实现界面化的文本处理工具(推荐)
Dec 20 Python
Python实现的在特定目录下导入模块功能分析
Feb 11 Python
Python3.5模块的定义、导入、优化操作图文详解
Apr 27 Python
在交互式环境中执行Python程序过程详解
Jul 12 Python
Python Django的安装配置教程图文详解
Jul 17 Python
PYTHON发送邮件YAGMAIL的简单实现解析
Oct 28 Python
浅谈keras 模型用于预测时的注意事项
Jun 27 Python
基于K.image_data_format() == 'channels_first' 的理解
Jun 29 Python
python中出现invalid syntax报错的几种原因分析
Feb 12 Python
python使用mysql的两种使用方式
Mar 07 #Python
python表格存取的方法
Mar 07 #Python
Django中Model的使用方法教程
Mar 07 #Python
python使用opencv按一定间隔截取视频帧
Mar 06 #Python
python+ffmpeg视频并发直播压力测试
Mar 06 #Python
小白如何入门Python? 制作一个网站为例
Mar 06 #Python
python调用系统ffmpeg实现视频截图、http发送
Mar 06 #Python
You might like
php面向对象中的魔术方法中文说明
2014/03/04 PHP
PHP实现仿百度文库,豆丁在线文档效果(word,excel,ppt转flash)
2016/03/10 PHP
PHP判断json格式是否正确的实现代码
2017/09/20 PHP
让innerHTML的脚本也可以运行起来
2006/07/01 Javascript
JavaScript CSS修改学习第五章 给“上传”添加样式
2010/02/19 Javascript
Tips 带三角可关闭的文字提示
2010/10/06 Javascript
javascript学习笔记(九) js对象 设计模式
2012/06/19 Javascript
jq选项卡鼠标延迟的插件实例
2013/05/13 Javascript
浅析showModalDialog数据缓存问题(用禁止浏览器缓存解决)
2013/07/09 Javascript
node.js使用cluster实现多进程
2016/03/17 Javascript
基于BootStrap Metronic开发框架经验小结【六】对话框及提示框的处理和优化
2016/05/12 Javascript
js Canvas实现圆形时钟教程
2016/09/19 Javascript
JS实现颜色动态淡化效果
2017/03/06 Javascript
Angular中管道操作符(|)的使用方法
2017/12/15 Javascript
JS实现的新闻列表自动滚动效果示例
2019/01/30 Javascript
React.js组件实现拖拽排序组件功能过程解析
2020/04/27 Javascript
[36:20]KG vs SECRET 2019国际邀请赛小组赛 BO2 第二场 8.16
2019/08/19 DOTA
python判断图片宽度和高度后删除图片的方法
2015/05/22 Python
使用Python操作MySQL的一些基本方法
2015/08/16 Python
对python Tkinter Text的用法详解
2018/10/11 Python
python实现图片识别汽车功能
2018/11/30 Python
python利用插值法对折线进行平滑曲线处理
2018/12/25 Python
python3实现带多张图片、附件的邮件发送
2019/08/10 Python
Python获取excel内容及相关操作代码实例
2020/08/10 Python
如何利用input事件来监听移动端的输入
2016/04/15 HTML / CSS
canvas实现漂亮的下雨效果的示例
2018/04/18 HTML / CSS
财务管理职业生涯规划范文
2013/12/27 职场文书
竞职演讲稿范文
2014/01/11 职场文书
会计职业生涯规划书
2014/01/13 职场文书
法制宣传月活动总结
2014/04/29 职场文书
2014年保育员工作总结
2014/12/02 职场文书
街道党风廉政建设调研报告
2015/01/01 职场文书
2015年建筑工程工作总结
2015/05/13 职场文书
小学生手册家长意见
2015/06/03 职场文书
【D4DJ】美少女DJ企划 动画将于明年冬季开播第2季
2022/04/11 日漫
Python使用BeautifulSoup4修改网页内容
2022/05/20 Python