编程 Python

零基础写python爬虫之抓取糗事百科代码分享

Posted in Python onNovember 06, 2014

项目内容：

用Python写的糗事百科的网络爬虫。

使用方法：

新建一个Bug.py文件，然后将代码复制到里面后，双击运行。

程序功能：

在命令提示行中浏览糗事百科。

原理解释：

首先，先浏览一下糗事百科的主页：http://www.qiushibaike.com/hot/page/1
可以看出来，链接中page/后面的数字就是对应的页码，记住这一点为以后的编写做准备。
然后，右击查看页面源码：

零基础写python爬虫之抓取糗事百科代码分享

观察发现，每一个段子都用div标记，其中class必为content，title是发帖时间，我们只需要用正则表达式将其“扣”出来就可以了。
明白了原理之后，剩下的就是正则表达式的内容了，可以参照这篇文章：
https://3water.com/article/57150.htm

运行效果：

零基础写python爬虫之抓取糗事百科代码分享

# -*- coding: utf-8 -*-    

     

import urllib2    

import urllib    

import re    

import thread    

import time      

#----------- 加载处理糗事百科 -----------    

class Spider_Model:    

        

    def __init__(self):    

        self.page = 1    

        self.pages = []    

        self.enable = False    

    

    # 将所有的段子都扣出来，添加到列表中并且返回列表    

    def GetPage(self,page):    

        myUrl = "http://m.qiushibaike.com/hot/page/" + page    

        user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'   

        headers = { 'User-Agent' : user_agent }   

        req = urllib2.Request(myUrl, headers = headers)   

        myResponse = urllib2.urlopen(req)  

        myPage = myResponse.read()    

        #encode的作用是将unicode编码转换成其他编码的字符串    

        #decode的作用是将其他编码的字符串转换成unicode编码    

        unicodePage = myPage.decode("utf-8")    

    

        # 找出所有class="content"的div标记    

        #re.S是任意匹配模式，也就是.可以匹配换行符    

        myItems = re.findall('<div.*?class="content".*?title="(.*?)">(.*?)</div>',unicodePage,re.S)    

        items = []    

        for item in myItems:    

            # item 中第一个是div的标题，也就是时间    

            # item 中第二个是div的内容，也就是内容    

            items.append([item[0].replace("\n",""),item[1].replace("\n","")])    

        return items    

    

    # 用于加载新的段子    

    def LoadPage(self):    

        # 如果用户未输入quit则一直运行    

        while self.enable:    

            # 如果pages数组中的内容小于2个    

            if len(self.pages) < 2:    

                try:    

                    # 获取新的页面中的段子们    

                    myPage = self.GetPage(str(self.page))    

                    self.page += 1    

                    self.pages.append(myPage)    

                except:    

                    print '无法链接糗事百科！'    

            else:    

                time.sleep(1)    

            

    def ShowPage(self,nowPage,page):    

        for items in nowPage:    

            print u'第%d页' % page , items[0]  , items[1]    

            myInput = raw_input()    

            if myInput == "quit":    

                self.enable = False    

                break    

            

    def Start(self):    

        self.enable = True    

        page = self.page    

    

        print u'正在加载中请稍候......'    

            

        # 新建一个线程在后台加载段子并存储    

        thread.start_new_thread(self.LoadPage,())    

            

        #----------- 加载处理糗事百科 -----------    

        while self.enable:    

            # 如果self的page数组中存有元素    

            if self.pages:    

                nowPage = self.pages[0]    

                del self.pages[0]    

                self.ShowPage(nowPage,page)    

                page += 1    

     

#----------- 程序的入口处 -----------    

print u"""  

---------------------------------------  

   程序：糗百爬虫  

   版本：0.3  

   作者：why  

   日期：2014-06-03  

   语言：Python 2.7  

   操作：输入quit退出阅读糗事百科  

   功能：按下回车依次浏览今日的糗百热点  

---------------------------------------  

"""  

print u'请按下回车浏览今日的糗百内容：'    

raw_input(' ')    

myModel = Spider_Model()    

myModel.Start()

Q&A：
1.为什么有段时间显示糗事百科不可用？
答：前段时间因为糗事百科添加了Header的检验，导致无法爬取，需要在代码中模拟Header。现在代码已经作了修改，可以正常使用。

2.为什么需要单独新建个线程？
答：基本流程是这样的：爬虫在后台新起一个线程，一直爬取两页的糗事百科，如果剩余不足两页，则再爬一页。用户按下回车只是从库存中获取最新的内容，而不是上网获取，所以浏览更顺畅。也可以把加载放在主线程，不过这样会导致爬取过程中等待时间过长的问题。

零基础写python爬虫之抓取糗事百科代码分享

- Author -

hebedich

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python备份Mysql脚本

Aug 11 Python

python将html转成PDF的实现代码(包含中文)

Mar 04 Python

Python删除指定目录下过期文件的2个脚本分享

Apr 10 Python

Python的网络编程库Gevent的安装及使用技巧

Jun 24 Python

解决uWSGI的编码问题详解

Mar 24 Python

解决Pandas to_json()中文乱码,转化为json数组的问题

May 10 Python

Windows下Python3.6安装第三方模块的方法

Nov 22 Python

对python中数据集划分函数StratifiedShuffleSplit的使用详解

Dec 11 Python

python实现爬虫抓取小说功能示例【抓取金庸小说】

Aug 09 Python

python3的UnicodeDecodeError解决方法

Dec 20 Python

如何在python中执行另一个py文件

Apr 30 Python

python实现图片转换成素描和漫画格式

Aug 19 Python

零基础写python爬虫之神器正则表达式

Nov 06 #Python

零基础写python爬虫之抓取百度贴吧代码分享

Nov 06 #Python

零基础写python爬虫之urllib2使用指南

Nov 05 #Python

零基础写python爬虫之urllib2中的两个重要概念：Openers和Handlers

Nov 05 #Python

零基础写python爬虫之HTTP异常处理

Nov 05 #Python

零基础写python爬虫之使用urllib2组件抓取网页内容

Nov 04 #Python

零基础写python爬虫之爬虫的定义及URL构成

Nov 04 #Python

You might like

PHP无限分类的类

2007/01/02 PHP

PHP+jQuery 注册模块的改进（一）：验证码存入SESSION

2014/10/14 PHP

php ActiveMQ的安装与使用方法图文教程

2020/02/23 PHP

js脚本学习比较实用的基础

2006/09/07 Javascript

JAVASCRIPT下判断IE与FF的比较简单的方式

2008/10/17 Javascript

javascript 基础篇1 什么是js 建立第一个js程序

2012/03/14 Javascript

JS嵌套函数调用上下文的问题解决

2014/03/26 Javascript

JS实现点击文字对应DIV层不停闪动效果的方法

2015/03/02 Javascript

JavaScript头像上传插件源码分享

2016/03/29 Javascript

d3.js实现简单的网络拓扑图实例代码

2016/11/06 Javascript

Node.js Mongodb 密码特殊字符 @的解决方法

2017/04/11 Javascript

详解vue通过NGINX部署在子目录或者二级目录实践

2018/09/03 Javascript

利用angular自动编译andriod APK的绕坑经历分享

2019/03/08 Javascript

Vue+element 解决浏览器自动填充记住的账号密码问题

2019/06/11 Javascript

JS 设计模式之：工厂模式定义与实现方法浅析

2020/05/06 Javascript

js实现双人五子棋小游戏

2020/05/28 Javascript

[05:20]卡尔工作室_DOTA2新手教学_DOTA2超强新手功能

2013/04/22 DOTA

Python自动化开发学习之三级菜单制作

2017/07/14 Python

无法使用pip命令安装python第三方库的原因及解决方法

2018/06/12 Python

python 项目目录结构设置

2020/02/14 Python

Python常用模块函数代码汇总解析

2020/08/31 Python

python编写实现抽奖器

2020/09/10 Python

CSS3实现swap交换动画

2016/01/19 HTML / CSS

AmazeUI 单选框和多选框的实现示例

2020/08/18 HTML / CSS

如何在Oracle中查看各个表、表空间占用空间的大小

2015/10/31 面试题

实习单位接收函

2014/01/11 职场文书

大学毕业感言50字

2014/02/07 职场文书

保护环境建议书100字

2014/05/13 职场文书

生日答谢词

2015/01/05 职场文书

公司行政主管岗位职责

2015/04/09 职场文书

管辖权异议上诉状

2015/05/23 职场文书

我的1919观后感

2015/06/03 职场文书

让生命充满爱观后感

2015/06/08 职场文书

幼儿园教师读书笔记

2015/06/29 职场文书

幼儿园教师教育随笔

2015/08/14 职场文书

vue postcss-px2rem 自适应布局

2022/05/15 Vue.js