Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例


Posted in Python onApril 26, 2018

本文实例讲述了Python实现爬取百度贴吧帖子所有楼层图片的爬虫。分享给大家供大家参考,具体如下:

下载百度贴吧帖子图片,好好看

Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例

python2.7版本:

#coding=utf-8
import re
import requests
import urllib
from bs4 import BeautifulSoup
import time
time1=time.time()
def getHtml(url):
  page = requests.get(url)
  html =page.text
  return html
def getImg(html):
  soup = BeautifulSoup(html, 'html.parser')
  img_info = soup.find_all('img', class_='BDE_Image')
  global index
  for index,img in enumerate(img_info,index+1):
    print ("正在下载第{}张图片".format(index))
    urllib.urlretrieve(img.get("src"),'C:/pic4/%s.jpg' % index)
def getMaxPage(url):
  html = getHtml(url)
  reg = re.compile(r'max-page="(\d+)"')
  page = re.findall(reg,html)
  page = int(page[0])
  return page
if __name__=='__main__':
  url  = "https://tieba.baidu.com/p/5113603072"
  page = getMaxPage(url)
  index = 0
  for i in range(1,page):
    url = "%s%s" % ("https://tieba.baidu.com/p/5113603072?pn=",str(i))
    html = getHtml(url)
    getImg(html)
  print ("OK!All DownLoad!")
  time2=time.time()
  print u'总共耗时:' + str(time2 - time1) + 's'
Python 相关文章推荐
python计算圆周率pi的方法
Jul 11 Python
基于Python的XSS测试工具XSStrike使用方法
Jul 29 Python
PyQt5每天必学之单行文本框
Apr 19 Python
利用Python在一个文件的头部插入数据的实例
May 02 Python
Django 忘记管理员或忘记管理员密码 重设登录密码的方法
May 30 Python
django admin 后台实现三级联动的示例代码
Jun 22 Python
Python实现分段线性插值
Dec 17 Python
Python图像处理之图像的缩放、旋转与翻转实现方法示例
Jan 04 Python
详解Python 定时框架 Apscheduler原理及安装过程
Jun 14 Python
python logging模块的使用总结
Jul 09 Python
python 怎样将dataframe中的字符串日期转化为日期的方法
Sep 26 Python
详解解决jupyter不能使用pytorch的问题
Feb 18 Python
Python实现的计算器功能示例
Apr 26 #Python
python email smtplib模块发送邮件代码实例
Apr 26 #Python
Python利用正则表达式实现计算器算法思路解析
Apr 25 #Python
Python实现随机生成手机号及正则验证手机号的方法
Apr 25 #Python
Python实现按中文排序的方法示例
Apr 25 #Python
Python实现的基于优先等级分配糖果问题算法示例
Apr 25 #Python
python自动登录12306并自动点击验证码完成登录的实现源代码
Apr 25 #Python
You might like
Discuz批量替换帖子内容的方法(使用SQL更新数据库)
2014/06/23 PHP
php中字符查找函数strpos、strrchr与strpbrk用法
2014/11/18 PHP
PHP使用strtotime计算两个给定日期之间天数的方法
2015/03/18 PHP
PHP 文件上传后端处理实用技巧方法
2017/01/06 PHP
php中目录操作opendir()、readdir()及scandir()用法示例
2019/06/08 PHP
offsetParent 算法分析
2010/04/05 Javascript
jQuery EasyUI API 中文文档 - ComboBox组合框
2011/10/07 Javascript
js中的前绑定和后绑定详解
2013/08/01 Javascript
js 实现菜单上下显示附效果图
2013/11/21 Javascript
详解JavaScript中shift()方法的使用
2015/06/09 Javascript
浅谈JavaScript中运算符的优先级
2015/07/07 Javascript
Node.js操作Firebird数据库教程
2016/03/04 Javascript
JavaScript交换两个变量值的七种解决方案
2016/12/01 Javascript
JavaScript实现设置默认日期范围为最近40天的方法分析
2017/07/12 Javascript
通过命令行创建vue项目的方法
2017/07/20 Javascript
详解利用 Vue.js 实现前后端分离的RBAC角色权限管理
2017/09/15 Javascript
Bootstrap一款超好用的前端框架
2017/09/25 Javascript
Node.Js生成比特币地址代码解析
2018/04/21 Javascript
Vue2 添加数据可视化支持的方法步骤
2019/01/02 Javascript
ajaxfileupload.js实现上传文件功能
2019/04/19 Javascript
layui在form表单页面通过Validform加入简单验证的方法
2019/09/06 Javascript
解决vue打包报错Unexpected token: punc的问题
2020/10/24 Javascript
Python机器学习之决策树算法
2017/12/22 Python
5款Python程序员高频使用开发工具推荐
2019/04/10 Python
python获取指定日期范围内的每一天,每个月,每季度的方法
2019/08/08 Python
HTML5 Canvas+JS控制电脑或手机上的摄像头实例
2014/05/03 HTML / CSS
JACK & JONES英国官方网站:欧洲领先的男装生产商
2017/09/27 全球购物
印度尼西亚最大和最全面的网络商城:Blibli.com
2017/10/04 全球购物
Charlotte Tilbury澳大利亚官网:英国美妆品牌
2018/10/05 全球购物
Eagle Eyes Optics鹰眼光学:高性能太阳镜
2018/12/07 全球购物
NULL是什么,它是怎么定义的
2015/05/09 面试题
求职者应聘的自我评价
2013/10/16 职场文书
我们的节日清明节活动方案
2014/03/05 职场文书
公司活动总结怎么写
2014/06/25 职场文书
领导干部作风建设剖析材料
2014/10/11 职场文书
python基础之模块的导入
2021/10/24 Python