Python编写百度贴吧的简单爬虫


Posted in Python onApril 02, 2015

操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数

功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名

代码:

# -*- coding: utf-8 -*-
 
#----------------------------
#  程序:百度贴吧的小爬虫
#  日期:2015/03/28
#  语言:Python 2.7
#  操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数
#  功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名
#----------------------------
 
import urllib2
import time
 
def baidu_tieba(url, start, end):
  for i in range(start, end):
    sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html'
    print '正在下载第' + str(i) + '个网页,并将其储存为' + sName + '...'
    f = open(sName, 'w+')
    m = urllib2.urlopen(url+str(i))
    n = m.read()
    f.write(n)
    f.close()
  print '成功下载'
     
baiduurl = str(raw_input('请输入贴子的地址,去掉pn后面的数字>>\n'))
begin_page = int(raw_input('请输入帖子的起始页码>>\n'))
end_page = int(raw_input('请输入帖子的终止页码>>\n'))        
 
baidu_tieba(baiduurl, begin_page, end_page)

以上所述就是本文的全部内容了,希望能够对大家学习Python制作爬虫有所帮助。

Python 相关文章推荐
Python的randrange()方法使用教程
May 15 Python
Python smallseg分词用法实例分析
May 28 Python
学习python类方法与对象方法
Mar 15 Python
对python opencv 添加文字 cv2.putText 的各参数介绍
Dec 05 Python
对python以16进制打印字节数组的方法详解
Jan 24 Python
Python3.5 Pandas模块之DataFrame用法实例分析
Apr 23 Python
Flask框架路由和视图用法实例分析
Nov 07 Python
python中get和post有什么区别
Jun 19 Python
解决TensorFlow调用Keras库函数存在的问题
Jul 06 Python
pytorch学习教程之自定义数据集
Nov 10 Python
python用tkinter开发的扫雷游戏
Jun 01 Python
python调用ffmpeg命令行工具便捷操作视频示例实现过程
Nov 01 Python
用Python制作简单的钢琴程序的教程
Apr 01 #Python
仅利用30行Python代码来展示X算法
Apr 01 #Python
探究数组排序提升Python程序的循环的运行效率的原因
Apr 01 #Python
用Python编写分析Python程序性能的工具的教程
Apr 01 #Python
对Python新手编程过程中如何规避一些常见问题的建议
Apr 01 #Python
利用Django框架中select_related和prefetch_related函数对数据库查询优化
Apr 01 #Python
用实例详解Python中的Django框架中prefetch_related()函数对数据库查询的优化
Apr 01 #Python
You might like
php调用C代码的实现方法
2014/03/11 PHP
PHP人民币金额转大写实例代码
2015/10/02 PHP
thinkPHP实现递归循环栏目并按照树形结构无限极输出的方法
2016/05/19 PHP
Laravel框架Blade模板简介及模板继承用法分析
2019/12/03 PHP
PJ Blog修改-禁止复制的代码和方法
2006/10/25 Javascript
javascript RadioButtonList获取选中值
2009/04/09 Javascript
javascript不可用的问题探究
2013/10/01 Javascript
struts2+jquery组合验证注册用户是否存在
2014/04/30 Javascript
ExtJS4如何给同一个formpanel不同的url
2014/05/02 Javascript
js代码实现的加入收藏效果并兼容主流浏览器
2014/06/23 Javascript
JavaScript设计模式之外观模式介绍
2014/12/28 Javascript
js实现汉字排序的方法
2015/07/23 Javascript
基于jquery实现一个滚动的分步注册向导-附源码
2015/08/26 Javascript
jQuery插件ImageDrawer.js实现动态绘制图片动画(附源码下载)
2016/02/25 Javascript
ThinkJS中如何使用MongoDB的CURD操作
2016/12/13 Javascript
vue 自定义全局方法,在组件里面的使用介绍
2018/02/28 Javascript
JS简单获取并修改input文本框内容的方法示例
2018/04/08 Javascript
javascript数组元素删除方法delete和splice解析
2019/12/09 Javascript
解决vue项目本地启动时无法携带cookie的问题
2021/02/06 Vue.js
在Python的Tornado框架中实现简单的在线代理的教程
2015/05/02 Python
Windows环境下python环境安装使用图文教程
2018/03/13 Python
Python使用pyautogui模块实现自动化鼠标和键盘操作示例
2018/09/04 Python
Python对Excel按列值筛选并拆分表格到多个文件的代码
2019/11/05 Python
印度尼西亚最好的小工具在线商店:Erafone.com
2019/03/26 全球购物
俄罗斯一家时尚女装商店:Charuel
2019/12/04 全球购物
仓库主管的岗位职责
2013/12/04 职场文书
书法培训心得体会
2014/01/05 职场文书
金融行业职业生涯规划范文
2014/01/17 职场文书
生产部厂长职位说明书
2014/03/03 职场文书
中国好声音华少广告词
2014/03/17 职场文书
超市仓管员岗位职责
2014/04/07 职场文书
员工年终考核评语
2014/12/31 职场文书
2016教师廉洁教育心得体会
2016/01/13 职场文书
护士业务学习心得体会
2016/01/25 职场文书
学会掌握自己命运的十条黄金法则:
2019/08/08 职场文书
如何解决.cuda()加载用时很长的问题
2021/05/24 Python