零基础写python爬虫之抓取百度贴吧代码分享


Posted in Python onNovember 06, 2014

这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去!

# -*- coding: utf-8 -*-

#---------------------------------------

#   程序:百度贴吧爬虫

#   版本:0.1

#   作者:why

#   日期:2013-05-14

#   语言:Python 2.7

#   操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。

#   功能:下载对应页码内的所有页面并存储为html文件。

#---------------------------------------

import string, urllib2

#定义百度函数

def baidu_tieba(url,begin_page,end_page):   

    for i in range(begin_page, end_page+1):

        sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名

        print '正在下载第' + str(i) + '个网页,并将其存储为' + sName + '......'

        f = open(sName,'w+')

        m = urllib2.urlopen(url + str(i)).read()

        f.write(m)

        f.close()

#-------- 在这里输入参数 ------------------

# 这个是山东大学的百度贴吧中某一个帖子的地址

#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='

#iPostBegin = 1

#iPostEnd = 10
bdurl = str(raw_input(u'请输入贴吧的地址,去掉pn=后面的数字:\n'))

begin_page = int(raw_input(u'请输入开始的页数:\n'))

end_page = int(raw_input(u'请输入终点的页数:\n'))

#-------- 在这里输入参数 ------------------

#调用

baidu_tieba(bdurl,begin_page,end_page)

以上就是python抓取百度贴吧的一段简单的代码,非常的实用吧,各位可以自行扩展下。

Python 相关文章推荐
python命令行参数解析OptionParser类用法实例
Oct 09 Python
Python和GO语言实现的消息摘要算法示例
Mar 10 Python
从局部变量和全局变量开始全面解析Python中变量的作用域
Jun 16 Python
python的多重继承的理解
Aug 06 Python
Python实现加载及解析properties配置文件的方法
Mar 29 Python
Python 通配符删除文件的实例
Apr 24 Python
PyQt5的安装配置过程,将ui文件转为py文件后显示窗口的实例
Jun 19 Python
Python实现滑动平均(Moving Average)的例子
Aug 24 Python
python 类之间的参数传递方式
Dec 20 Python
tensorflow查看ckpt各节点名称实例
Jan 21 Python
Python栈的实现方法示例【列表、单链表】
Feb 22 Python
pytorch 中autograd.grad()函数的用法说明
May 12 Python
零基础写python爬虫之urllib2使用指南
Nov 05 #Python
零基础写python爬虫之urllib2中的两个重要概念:Openers和Handlers
Nov 05 #Python
零基础写python爬虫之HTTP异常处理
Nov 05 #Python
零基础写python爬虫之使用urllib2组件抓取网页内容
Nov 04 #Python
零基础写python爬虫之爬虫的定义及URL构成
Nov 04 #Python
使用Python编写简单网络爬虫抓取视频下载资源
Nov 04 #Python
Python爬取Coursera课程资源的详细过程
Nov 04 #Python
You might like
对于ThinkPHP框架早期版本的一个SQL注入漏洞详细分析
2014/07/04 PHP
PHP对文件夹递归执行chmod命令的方法
2015/06/19 PHP
php实现留言板功能(代码详解)
2017/03/28 PHP
PHP+iframe模拟Ajax上传文件功能示例
2019/07/02 PHP
Vagrant(WSL)+PHPStorm+Xdebu 断点调试环境搭建
2019/12/13 PHP
jQuery 使用手册(二)
2009/09/23 Javascript
jquery select选中的一个小问题
2009/10/11 Javascript
含有CKEditor的表单如何提交
2014/01/09 Javascript
JS使用getComputedStyle()方法获取CSS属性值
2014/04/23 Javascript
JS访问SWF的函数用法实例
2015/07/01 Javascript
BootStrap和jQuery相结合实现可编辑表格
2016/04/21 Javascript
jQuery实现下拉框功能实例代码
2016/05/06 Javascript
什么是JavaScript注入攻击?
2016/09/14 Javascript
jquery easyui validatebox remote的使用详解
2016/11/09 Javascript
vuex学习之Actions的用法详解
2017/08/29 Javascript
详解Vue 中 extend 、component 、mixins 、extends 的区别
2017/12/20 Javascript
jquery+css3实现熊猫tv导航代码分享
2018/02/12 jQuery
node前端开发模板引擎Jade的入门
2018/05/11 Javascript
js实现点击按钮随机生成背景颜色
2020/09/05 Javascript
vue 导出文件,携带请求头token操作
2020/09/10 Javascript
python批量修改文件后缀示例代码分享
2013/12/24 Python
python实现自动重启本程序的方法
2015/07/09 Python
Python匹配中文的正则表达式
2016/05/11 Python
人工智能最火编程语言 Python大战Java!
2017/11/13 Python
有关Python的22个编程技巧
2018/08/29 Python
pytorch对可变长度序列的处理方法详解
2018/12/08 Python
Python3实现统计单词表中每个字母出现频率的方法示例
2019/01/28 Python
详解numpy的argmax的具体使用
2019/05/27 Python
快速解决vue.js 模板和jinja 模板冲突的问题
2019/07/26 Python
Python flask框架实现浏览器点击自定义跳转页面
2020/06/04 Python
深入解析HTML5的IndexedDB索引数据库
2015/09/14 HTML / CSS
HTML5 Blob 实现文件下载功能的示例代码
2019/11/29 HTML / CSS
商场促销活动总结
2014/07/10 职场文书
新郎答谢词
2015/01/04 职场文书
物业接待员岗位职责
2015/04/15 职场文书
心灵点滴观后感
2015/06/02 职场文书