零基础写python爬虫之抓取百度贴吧代码分享


Posted in Python onNovember 06, 2014

这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去!

# -*- coding: utf-8 -*-

#---------------------------------------

#   程序:百度贴吧爬虫

#   版本:0.1

#   作者:why

#   日期:2013-05-14

#   语言:Python 2.7

#   操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。

#   功能:下载对应页码内的所有页面并存储为html文件。

#---------------------------------------

import string, urllib2

#定义百度函数

def baidu_tieba(url,begin_page,end_page):   

    for i in range(begin_page, end_page+1):

        sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名

        print '正在下载第' + str(i) + '个网页,并将其存储为' + sName + '......'

        f = open(sName,'w+')

        m = urllib2.urlopen(url + str(i)).read()

        f.write(m)

        f.close()

#-------- 在这里输入参数 ------------------

# 这个是山东大学的百度贴吧中某一个帖子的地址

#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='

#iPostBegin = 1

#iPostEnd = 10
bdurl = str(raw_input(u'请输入贴吧的地址,去掉pn=后面的数字:\n'))

begin_page = int(raw_input(u'请输入开始的页数:\n'))

end_page = int(raw_input(u'请输入终点的页数:\n'))

#-------- 在这里输入参数 ------------------

#调用

baidu_tieba(bdurl,begin_page,end_page)

以上就是python抓取百度贴吧的一段简单的代码,非常的实用吧,各位可以自行扩展下。

Python 相关文章推荐
操作Windows注册表的简单的Python程序制作教程
Apr 07 Python
在Python中使用判断语句和循环的教程
Apr 25 Python
简单介绍Python中的round()方法
May 15 Python
详解使用 pyenv 管理多个版本 python 环境
Oct 19 Python
python 实现数组list 添加、修改、删除的方法
Apr 04 Python
对TensorFlow中的variables_to_restore函数详解
Jul 30 Python
python随机在一张图像上截取任意大小图片的方法
Jan 24 Python
python爬虫项目设置一个中断重连的程序的实现
Jul 26 Python
Python3 main函数使用sys.argv传入多个参数的实现
Dec 25 Python
python进行二次方程式计算的实例讲解
Dec 06 Python
python字符串的多行输出的实例详解
Jun 08 Python
Python可变集合和不可变集合的构造方法大全
Dec 06 Python
零基础写python爬虫之urllib2使用指南
Nov 05 #Python
零基础写python爬虫之urllib2中的两个重要概念:Openers和Handlers
Nov 05 #Python
零基础写python爬虫之HTTP异常处理
Nov 05 #Python
零基础写python爬虫之使用urllib2组件抓取网页内容
Nov 04 #Python
零基础写python爬虫之爬虫的定义及URL构成
Nov 04 #Python
使用Python编写简单网络爬虫抓取视频下载资源
Nov 04 #Python
Python爬取Coursera课程资源的详细过程
Nov 04 #Python
You might like
PHP错误抑制符(@)导致引用传参失败Bug的分析
2011/05/02 PHP
zend Framework中的Layout(模块化得布局)详解
2013/06/28 PHP
php+js实现异步图片上传实例分享
2014/06/02 PHP
php如何实现不借助IDE快速定位行数或者方法定义的文件和位置
2017/01/17 PHP
php file_get_contents取文件中数组元素的方法
2017/04/01 PHP
thinkphp5.0自定义验证规则使用方法
2017/11/16 PHP
jQuery 性能优化手册 推荐
2010/02/23 Javascript
js实现的仿新浪微博完美的时间组件升级版
2011/12/20 Javascript
js nextSibling属性和previousSibling属性概述及使用注意
2013/02/16 Javascript
通过上下左右键和回车键切换光标实现代码
2013/03/08 Javascript
Js实现自定义右键行为
2015/03/26 Javascript
Vue实现选择城市功能
2017/05/27 Javascript
axios中cookie跨域及相关配置示例详解
2017/12/20 Javascript
解决vuecli3.0热更新失效的问题
2018/09/19 Javascript
javascript中的event loop事件循环详解
2018/12/14 Javascript
详解vue-cli+element-ui树形表格(多级表格折腾小计)
2019/04/17 Javascript
[02:08]DOTA2英雄基础教程 马格纳斯
2014/01/17 DOTA
Python的Django框架中消息通知的计数器实现教程
2016/06/13 Python
解决csv.writer写入文件有多余的空行问题
2018/07/06 Python
python3转换code128条形码的方法
2019/04/17 Python
numpy.array 操作使用简单总结
2019/11/08 Python
Python timeit模块的使用实践
2020/01/13 Python
Python读取文件内容为字符串的方法(多种方法详解)
2020/03/04 Python
python不同系统中打开方法
2020/06/23 Python
python request 模块详细介绍
2020/11/10 Python
PHP如何自定义函数
2016/09/16 面试题
华三通信H3C面试题
2015/05/15 面试题
关于青春的演讲稿
2014/05/05 职场文书
高中生旷课检讨书
2014/10/08 职场文书
再婚婚前财产协议书范本
2014/10/19 职场文书
2014年医生工作总结
2014/11/21 职场文书
小学运动会加油稿
2015/07/22 职场文书
mysql获取指定时间段中所有日期或月份的语句(不设存储过程,不加表)
2021/06/18 MySQL
深入解读Java三大集合之map list set的用法
2021/11/11 Java/Android
Java 死锁解决方案
2022/05/11 Java/Android
不想升级Win11?教你彻底锁定老版Windows系统的方法(附下载地址)
2022/09/23 数码科技