Python编写百度贴吧的简单爬虫


Posted in Python onApril 02, 2015

操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数

功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名

代码:

# -*- coding: utf-8 -*-
 
#----------------------------
#  程序:百度贴吧的小爬虫
#  日期:2015/03/28
#  语言:Python 2.7
#  操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数
#  功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名
#----------------------------
 
import urllib2
import time
 
def baidu_tieba(url, start, end):
  for i in range(start, end):
    sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html'
    print '正在下载第' + str(i) + '个网页,并将其储存为' + sName + '...'
    f = open(sName, 'w+')
    m = urllib2.urlopen(url+str(i))
    n = m.read()
    f.write(n)
    f.close()
  print '成功下载'
     
baiduurl = str(raw_input('请输入贴子的地址,去掉pn后面的数字>>\n'))
begin_page = int(raw_input('请输入帖子的起始页码>>\n'))
end_page = int(raw_input('请输入帖子的终止页码>>\n'))        
 
baidu_tieba(baiduurl, begin_page, end_page)

以上所述就是本文的全部内容了,希望能够对大家学习Python制作爬虫有所帮助。

Python 相关文章推荐
Python 命令行非阻塞输入的小例子
Sep 27 Python
Python 遍历子文件和所有子文件夹的代码实例
Dec 21 Python
使用XML库的方式,实现RPC通信的方法(推荐)
Jun 14 Python
python删除某个字符
Mar 19 Python
python2.x实现人民币转大写人民币
Jun 20 Python
Django rest framework工具包简单用法示例
Jul 20 Python
python 猴子补丁(monkey patch)
Jun 26 Python
pandas对dataFrame中某一个列的数据进行处理的方法
Jul 08 Python
Python使用Beautiful Soup爬取豆瓣音乐排行榜过程解析
Aug 15 Python
如何基于python对接钉钉并获取access_token
Apr 21 Python
基于Python的接口自动化读写excel文件的方法
Jan 15 Python
C3 线性化算法与 MRO之Python中的多继承
Oct 05 Python
用Python制作简单的钢琴程序的教程
Apr 01 #Python
仅利用30行Python代码来展示X算法
Apr 01 #Python
探究数组排序提升Python程序的循环的运行效率的原因
Apr 01 #Python
用Python编写分析Python程序性能的工具的教程
Apr 01 #Python
对Python新手编程过程中如何规避一些常见问题的建议
Apr 01 #Python
利用Django框架中select_related和prefetch_related函数对数据库查询优化
Apr 01 #Python
用实例详解Python中的Django框架中prefetch_related()函数对数据库查询的优化
Apr 01 #Python
You might like
用Apache反向代理设置对外的WWW和文件服务器
2006/10/09 PHP
PHP 伪静态隐藏传递参数名的四种方法
2010/02/22 PHP
php中模拟POST传递数据的两种方法分享
2011/09/16 PHP
利用js获取服务器时间的两个简单方法
2010/01/08 Javascript
js操纵跨frame的三级联动select下拉选项实例介绍
2013/05/19 Javascript
JQuery对class属性的操作实现按钮开关效果
2013/10/11 Javascript
js采用map取到id集合组并且实现点击一行选中一行
2013/12/16 Javascript
JQuery弹出炫丽对话框的同时让背景变灰色
2014/05/22 Javascript
使用JavaScript实现网页版Pongo设计思路及源代码分享
2014/06/16 Javascript
javascript表单验证和Window详解
2014/12/11 Javascript
js console.log打印对像与数组用法详解
2016/01/21 Javascript
js判断checkbox是否选中个数的方法(超简单)
2016/08/19 Javascript
微信小程序入门教程
2016/11/18 Javascript
JavaScript利用Date实现简单的倒计时实例
2017/01/12 Javascript
Angularjs cookie 操作实例详解
2017/09/27 Javascript
node.js文件上传重命名以及移动位置的示例代码
2018/01/19 Javascript
JS实现的JSON数组去重算法示例
2018/04/11 Javascript
解决layui的使用以及针对select、radio等表单组件不显示的问题
2019/09/05 Javascript
微信小程序wx.navigateTo方法里的events参数使用详情及场景
2020/01/07 Javascript
Python字符串处理之count()方法的使用
2015/05/18 Python
python实现查找两个字符串中相同字符并输出的方法
2015/07/11 Python
python实时获取外部程序输出结果的方法
2019/01/12 Python
Python OOP类中的几种函数或方法总结
2019/02/22 Python
django框架基于模板 生成 excel(xls) 文件操作示例
2019/06/19 Python
Python Selenium 之数据驱动测试的实现
2019/08/01 Python
python requests抓取one推送文字和图片代码实例
2019/11/04 Python
PyCharm下载和安装详细步骤
2019/12/17 Python
mysql的最长数据库名,表名,字段名可以是多长
2014/04/21 面试题
酷瑞网络科技面试题
2012/03/30 面试题
服装电子商务创业计划书
2014/01/30 职场文书
珍惜时间演讲稿
2014/05/14 职场文书
敬老模范事迹
2014/05/21 职场文书
四风查摆问题及整改措施
2014/10/10 职场文书
2014年统计工作总结
2014/11/21 职场文书
详细聊聊MySQL中慢SQL优化的方向
2021/08/30 MySQL
MySQL读取JSON转换的方式
2022/03/18 MySQL