Python编写百度贴吧的简单爬虫


Posted in Python onApril 02, 2015

操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数

功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名

代码:

# -*- coding: utf-8 -*-
 
#----------------------------
#  程序:百度贴吧的小爬虫
#  日期:2015/03/28
#  语言:Python 2.7
#  操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数
#  功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名
#----------------------------
 
import urllib2
import time
 
def baidu_tieba(url, start, end):
  for i in range(start, end):
    sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html'
    print '正在下载第' + str(i) + '个网页,并将其储存为' + sName + '...'
    f = open(sName, 'w+')
    m = urllib2.urlopen(url+str(i))
    n = m.read()
    f.write(n)
    f.close()
  print '成功下载'
     
baiduurl = str(raw_input('请输入贴子的地址,去掉pn后面的数字>>\n'))
begin_page = int(raw_input('请输入帖子的起始页码>>\n'))
end_page = int(raw_input('请输入帖子的终止页码>>\n'))        
 
baidu_tieba(baiduurl, begin_page, end_page)

以上所述就是本文的全部内容了,希望能够对大家学习Python制作爬虫有所帮助。

Python 相关文章推荐
python常见数制转换实例分析
May 09 Python
Python的多态性实例分析
Jul 07 Python
用Python下载一个网页保存为本地的HTML文件实例
May 21 Python
Python中logging.NullHandler 的使用教程
Nov 29 Python
python判断计算机是否有网络连接的实例
Dec 15 Python
详解Python3 pandas.merge用法
Sep 05 Python
使用python快速在局域网内搭建http传输文件服务的方法
Nov 14 Python
Pytorch evaluation每次运行结果不同的解决
Jan 02 Python
利用python3筛选excel中特定的行(行值满足某个条件/行值属于某个集合)
Sep 04 Python
Django路由层如何获取正确的url
Jul 15 Python
Python 实现Mac 屏幕截图详解
Oct 05 Python
基于Python编写一个监控CPU的应用系统
Jun 25 Python
用Python制作简单的钢琴程序的教程
Apr 01 #Python
仅利用30行Python代码来展示X算法
Apr 01 #Python
探究数组排序提升Python程序的循环的运行效率的原因
Apr 01 #Python
用Python编写分析Python程序性能的工具的教程
Apr 01 #Python
对Python新手编程过程中如何规避一些常见问题的建议
Apr 01 #Python
利用Django框架中select_related和prefetch_related函数对数据库查询优化
Apr 01 #Python
用实例详解Python中的Django框架中prefetch_related()函数对数据库查询的优化
Apr 01 #Python
You might like
PHP中获取变量的变量名的一段代码的bug分析
2011/07/07 PHP
PHP开发者常犯的10个MySQL错误更正剖析
2012/01/30 PHP
使用php测试硬盘写入速度示例
2014/01/27 PHP
jquery+ajax每秒向后台发送请求数据然后返回页面的代码
2011/01/17 Javascript
jQuery数据缓存功能的实现思路及简单模拟
2013/05/27 Javascript
js setTimeout 常见问题小结
2013/08/13 Javascript
jquery统计用户选中的复选框的个数
2014/06/06 Javascript
node.js使用npm 安装插件时提示install Error: ENOENT报错的解决方法
2014/11/20 Javascript
js鼠标悬浮出现遮罩层的方法
2015/01/28 Javascript
js实现简单锁屏功能实例
2015/05/27 Javascript
jQuery下拉美化搜索表单效果代码分享
2015/08/25 Javascript
fullpage.js全屏滚动插件使用实例
2016/09/06 Javascript
JS实现点击Radio动态更新table数据
2017/07/18 Javascript
关于JavaScript中高阶函数的魅力详解
2018/09/07 Javascript
详释JavaScript执行环境与执行栈
2019/04/02 Javascript
详解Vue中的scoped及穿透方法
2019/04/18 Javascript
使用webpack编译es6代码的方法步骤
2019/04/28 Javascript
JavaScript中的执行环境和作用域链
2020/09/04 Javascript
Python基于有道实现英汉字典功能
2015/07/25 Python
使用Python神器对付12306变态验证码
2016/01/05 Python
Python反转序列的方法实例分析
2018/03/21 Python
Python 实现使用dict 创建二维数据、DataFrame
2018/04/13 Python
python 列表删除所有指定元素的方法
2018/04/19 Python
在Mac上删除自己安装的Python方法
2018/10/29 Python
浅谈Python2之汉字编码为unicode的问题(即类似\xc3\xa4)
2019/08/12 Python
Python连接SQLite数据库并进行增册改查操作方法详解
2020/02/18 Python
python实现吃苹果小游戏
2020/03/21 Python
使用CSS3的appearance属性改变任何元素的浏览器默认风格
2012/12/24 HTML / CSS
CSS3实现瀑布流布局与无限加载图片相册的实例代码
2016/12/22 HTML / CSS
HTML5 微格式和相关的属性名称
2010/02/10 HTML / CSS
动物学专业毕业生求职信
2013/10/11 职场文书
专业实习自我鉴定
2013/10/29 职场文书
大四自我鉴定
2014/02/08 职场文书
高中运动会入场词
2014/02/14 职场文书
生活部的活动方案
2014/08/19 职场文书
社会实践活动报告
2015/02/05 职场文书